CN115953544B

CN115953544B - 一种三维重建方法、装置、电子设备及可读存储介质

Info

Publication number: CN115953544B
Application number: CN202310251944.5A
Authority: CN
Inventors: 卢丽华; 赵雅倩; 李茹杨; 魏辉; 李仁刚
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-05-09
Anticipated expiration: 2043-03-16
Also published as: CN115953544A

Abstract

本申请公开了计算机技术领域内的一种三维重建方法、装置、电子设备及可读存储介质。本申请以同一被观测对象在多个视角下的图像为基础，利用二维卷积UNet网络基于各图像的平面图像特征构建包裹被观测对象的代价体；之后利用三维卷积UNet网络得到每一体素的三维融合特征，使得每一体素的特征能够增强弱纹理表示；进而利用Transformer基于各体素的三维融合特征得到每一空间点的点融合特征，利用多层感知机基于所有空间点的点融合特征输出各空间点的颜色、符号距离和语义分割结果，并计算相应损失，以构建得到三维重建模型。该方案能够增强弱纹理的特征表示，并联合二维图像特征增强三维特征的表示能力，提高了三维重建质量。

Description

一种三维重建方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种三维重建方法、装置、电子设备及可读存储介质。

背景技术

目前，传统的三维重建方法基于输入的RGB图像预测深度图，然后基于深度图获得最终的重建图像，该方法依赖于特征匹配和深度估计的准确度，而输入图像中墙面、桌面等弱纹理区域，难以进行精准的特征匹配和深度估计。可见，传统方案对于弱纹理平面难以完成高质量重建，会降低重建图像的精准度。

因此，如何提高弱纹理平面的重建效果，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种三维重建方法、装置、电子设备及可读存储介质，以提高弱纹理平面的重建效果。其具体方案如下：

第一方面，本申请提供了一种三维重建方法，包括：

将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使所述二维卷积UNet网络构建包裹所述被观测对象的代价体；

将所述代价体输入三维卷积UNet网络，以使所述三维卷积UNet网络输出所述代价体中每一体素的三维融合特征；

利用Transformer基于各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并将每一空间点的点特征与其所匹配图像的颜色特征融合，得到每一空间点的点融合特征；

将所有空间点的点融合特征输入多层感知机，以使所述多层感知机输出各空间点的颜色、符号距离和语义分割结果；

针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，并基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失；

若所述综合损失符合预设条件，则当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机构建为三维重建模型，并利用所述三维重建模型对目标对象进行三维表面重建。

可选地，所述利用Transformer基于各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，包括：

在新视角下对所述代价体进行光线采样，并利用Transformer对每一采样点的邻域体素的三维融合特征进行自适应插值计算，得到每一采样点的采样点特征，得到新视角下所述代价体的所有空间点的点特征。

可选地，还包括：

若所述综合损失不符合预设条件，则利用所述综合损失优化当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机的网络参数，并利用所述训练集迭代训练优化后的二维卷积UNet网络、优化后的三维卷积UNet网络、优化后的Transformer和优化后的多层感知机。

可选地，所述利用所述三维重建模型对目标对象进行三维表面重建，包括：

利用所述三维重建模型处理所述目标对象在多个视角下的图像，得到处理结果；

基于所述处理结果得到所述目标对象的三维表面重建结果。

可选地，所述利用所述三维重建模型处理所述目标对象在多个视角下的图像，得到处理结果，包括：

将所述目标对象在多个视角下的图像输入所述三维重建模型，以使所述三维重建模型输出所述目标对象的多个符号距离集合；

将所述多个符号距离集合作为所述处理结果。

可选地，所述基于所述处理结果得到所述目标对象的三维表面重建结果，包括：

利用Marching Cubes算法对所述处理结果进行筛选和计算，得到所述目标对象的三维表面重建结果。

从所述处理结果中获取所述目标对象的同一三维空间点的所有符号距离值，保留其中最小的一个，得到所述目标对象的每一三维空间点的最小符号距离值；

基于所述目标对象的所有三维空间点的最小符号距离值得到所述目标对象的三维表面重建结果。

可选地，所述针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，包括：

基于各空间点的颜色、符号距离和语义分割结果进行体渲染，确定新视角下的预测图像的颜色预测值和语义分割预测值；

以所述训练集中的所述被观测对象在新视角下的已有图像为基准，计算颜色预测值与所述已有图像的颜色真值之间的颜色损失；计算所述多层感知机输出的各空间点的符号距离与基于所述已有图像的深度图确定的距离真值之间的深度损失；计算所述预测图像的平面法向预测值与所述已有图像的平面法向真值之间的平面法向损失；计算语义分割预测值与所述已有图像的语义分割真值之间的语义分割损失。

可选地，所述颜色损失的计算公式为：；表示所述颜色损失，表示颜色预测值，表示所述已有图像的颜色真值，表示所述预测图像中的任意像素点， N表示所述预测图像中的像素点总数。

可选地，所述深度损失的计算公式为：；表示所述深度损失，表示基于所述已有图像的深度图确定的距离真值，表示任意空间点与新视角所对应观测点的距离， S _v表示代价体 S中的任意体素。

可选地，所述平面法向损失的计算公式为：；表示所述平面法向损失， x _r表示采样光线与所述预测图像中的任意像素点 r的交点， n( x _r)为交点 x _r处的平面法向预测值， n _t表示交点 x _r处的平面法向真值， N _b表示像素点 r所在平面，表示像素点 r的语义分割预测值。

可选地，所述语义分割损失的计算公式为：；表示所述语义分割损失，表示所述预测图像中的任意像素点 r的语义分割预测值，表示所述已有图像中的像素点 r的语义分割真值， N表示所述预测图像中的像素点总数。

可选地，所述基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失，包括：按照目标公式计算所述综合损失，所述目标公式为：，表示所述综合损失，表示所述颜色损失，表示所述深度损失，表示所述平面法向损失，表示所述语义分割损失。

可选地，所述将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使所述二维卷积UNet网络构建包裹所述被观测对象的代价体，包括：

将获取到的图像输入所述二维卷积UNet网络，以使所述二维卷积UNet网络提取每一图像的平面图像特征，并基于各图像的平面图像构建包裹所述被观测对象的代价体。

可选地，所述将所述代价体输入三维卷积UNet网络，以使所述三维卷积UNet网络输出所述代价体中每一体素的三维融合特征，包括：

将所述代价体输入所述三维卷积UNet网络，以使所述三维卷积UNet网络提取所述代价体中每一体素的三维特征，并将每一体素的三维特征与其所匹配图像的平面图像特征融合，得到每一体素的三维融合特征。

第二方面，本申请提供了一种三维重建方法，包括：

获取同一室内场景在多个视角下的图像；

将所述室内场景在多个视角下的图像输入三维重建模型，以使所述三维重建模型输出所述室内场景的多个符号距离集合；所述三维重建模型基于上述任一项所述的三维重建方法构建得到；

基于所述多个符号距离集合得到所述室内场景的三维表面重建结果。

第三方面，本申请提供了一种三维重建装置，包括：

平面特征处理模块，用于将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使所述二维卷积UNet网络构建包裹所述被观测对象的代价体；

三维特征处理模块，用于将所述代价体输入三维卷积UNet网络，以使所述三维卷积UNet网络输出所述代价体中每一体素的三维融合特征；

融合模块，用于利用Transformer基于各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并将每一空间点的点特征与其所匹配图像的颜色特征融合，得到每一空间点的点融合特征；

预测模块，用于将所有空间点的点融合特征输入多层感知机，以使所述多层感知机输出各空间点的颜色、符号距离和语义分割结果；

损失计算模块，用于针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，并基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失；

构建模块，用于若所述综合损失符合预设条件，则当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机构建为三维重建模型，并利用所述三维重建模型对目标对象进行三维表面重建。

第四方面，本申请提供了一种三维重建装置，包括：

图像获取模块，用于获取同一室内场景在多个视角下的图像；

处理模块，用于将所述室内场景在多个视角下的图像输入三维重建模型，以使所述三维重建模型输出所述室内场景的多个符号距离集合；所述三维重建模型基于上述任一项所述的三维重建方法构建得到；

场景重建模块，基于所述多个符号距离集合得到所述室内场景的三维表面重建结果。

第五方面，本申请提供了一种三维重建方法，包括：

获取同一被观测对象在多个视角下的目标图像；

基于各目标图像的平面图像特征构建包裹所述被观测对象的代价体；

提取所述代价体中每一体素的三维特征，并使每一体素的三维特征与其所匹配目标图像的平面图像特征融合，得到每一体素的三维融合特征；

利用各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并使每一空间点的点特征与其所匹配目标图像的颜色特征融合，得到每一空间点的点融合特征；

基于所有空间点的点融合特征重建所述被观测对象在新视角下的新图像。

可选地，所述基于各目标图像的平面图像特征构建包裹所述被观测对象的代价体，包括：

利用二维卷积UNet网络提取每一目标图像的平面图像特征；

将每一目标图像的平面图像特征转换为新视角下的特征值，并利用所述特征值构建所述代价体。

可选地，所述提取所述代价体中每一体素的三维特征，包括：

利用三维卷积UNet网络提取每一体素的三维特征。

可选地，所述利用各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，包括：

在新视角下对所述代价体进行采样，并利用Transformer基于各体素的三维融合特征计算每一采样点特征，以得到新视角下所述代价体的所有空间点的点特征。

可选地，所述利用各体素的三维融合特征计算每一采样点特征，包括：

针对每一采样点，对当前采样点的邻域体素的三维融合特征进行自适应插值计算，得到当前采样点的采样点特征。

可选地，所述基于所有空间点的点融合特征重建所述被观测对象在新视角下的新图像，包括：

基于所有空间点的点融合特征预测各空间点的颜色和各空间点与新视角所对应观测点的距离；

基于各空间点的颜色和各空间点与新视角所对应观测点的距离的体渲染结果重建得到所述新图像。

可选地，所述基于所有空间点的点融合特征预测各空间点的颜色和各空间点与新视角所对应观测点的距离，包括：

将所有空间点的点融合特征输入多层感知机，以使所述多层感知机输出各空间点的颜色和各空间点与新视角所对应观测点的距离。

第六方面，本申请提供了一种模型训练方法，包括：

从训练集中获取至少两个训练图像：所述训练集包括：同一被观测对象在多个视角下的图像；

将所述至少两个训练图像输入特征学习网络，以使所述特征学习网络提取每一训练图像的平面图像特征；基于各训练图像的平面图像特征构建包裹所述被观测对象的代价体；提取所述代价体中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的平面图像特征融合，得到每一体素的三维融合特征；利用各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征；

将所有空间点的点融合特征输入多层感知机，以使所述多层感知机输出各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果；

以所述训练集中的所述被观测对象在新视角下的已有图像为基准，并针对各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果计算颜色损失、深度损失、平面法向损失和/或语义分割损失；

基于颜色损失、深度损失、平面法向损失和/或语义分割损失确定综合损失；

若所述综合损失符合预设条件，则将所述特征学习网络和所述多层感知机构建为三维重建模型。

可选地，还包括：

将同一被观测对象在多个视角下的图像输入所述三维重建模型，以使所述三维重建模型输出当前被观测对象的多个符号距离集合；

利用Marching Cubes算法处理所述多个符号距离集合，得到当前被观测对象的三维表面重建结果。

可选地，还包括：

若所述综合损失不符合预设条件，则利用所述综合损失优化所述特征学习网络和所述多层感知机的网络参数，并利用所述训练集迭代训练优化后的特征学习网络和优化后的多层感知机。

可选地，所述特征学习网络包括：二维卷积UNet网络、三维卷积UNet网络和Transformer；

相应地，所述将所述至少两个训练图像输入特征学习网络，以使所述特征学习网络提取各训练图像的平面图像特征；基于各训练图像的平面图像特征构建包裹所述被观测对象的代价体；提取所述代价体中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的平面图像特征融合，得到每一体素的三维融合特征；利用各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征，包括：

将每一训练图像输入所述二维卷积UNet网络，以使所述二维卷积UNet网络提取每一训练图像的平面图像特征；

基于各训练图像的平面图像特征构建包裹所述被观测对象的代价体后，利用所述三维卷积UNet网络提取所述代价体中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的平面图像特征融合，得到每一体素的三维融合特征；

将各体素的三维融合特征输入所述Transformer，以使所述Transformer输出新视角下所述代价体的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征。

可选地，所述以所述训练集中的所述被观测对象在新视角下的已有图像为基准，并针对各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果计算颜色损失、深度损失、平面法向损失和/或语义分割损失，包括：

基于各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果进行体渲染，确定新视角下的预测图像的颜色预测值和语义分割预测值；

计算颜色预测值与所述已有图像的颜色真值之间的颜色损失；计算所述多层感知机输出的各空间点与新视角所对应观测点的距离与基于所述已有图像的深度图确定的距离真值之间的深度损失；计算所述预测图像的平面法向预测值与所述已有图像的平面法向真值之间的平面法向损失；和/或计算语义分割预测值与所述已有图像的语义分割真值之间的语义分割损失。

第七方面，本申请提供了一种三维重建装置，包括：

目标图像获取模块，用于获取同一被观测对象在多个视角下的目标图像；

构建模块，用于基于各目标图像的平面图像特征构建包裹所述被观测对象的代价体；

提取模块，用于提取所述代价体中每一体素的三维特征，并使每一体素的三维特征与其所匹配目标图像的平面图像特征融合，得到每一体素的三维融合特征；

融合模块，用于利用各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并使每一空间点的点特征与其所匹配目标图像的颜色特征融合，得到每一空间点的点融合特征；

重建模块，用于基于所有空间点的点融合特征重建所述被观测对象在新视角下的新图像。

第八方面，本申请提供了一种模型训练装置，包括：

训练图像获取模块，用于从训练集中获取至少两个训练图像：所述训练集包括：同一被观测对象在多个视角下的图像；

特征学习模块，用于将所述至少两个训练图像输入特征学习网络，以使所述特征学习网络提取每一训练图像的平面图像特征；基于各训练图像的平面图像特征构建包裹所述被观测对象的代价体；提取所述代价体中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的平面图像特征融合，得到每一体素的三维融合特征；利用各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征；

重建学习模块，用于将所有空间点的点融合特征输入多层感知机，以使所述多层感知机输出各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果；

损失计算模块，用于以所述训练集中的所述被观测对象在新视角下的已有图像为基准，并针对各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果计算颜色损失、深度损失、平面法向损失和/或语义分割损失；基于颜色损失、深度损失、平面法向损失和/或语义分割损失确定综合损失；

输出模块，用于若所述综合损失符合预设条件，则将所述特征学习网络和所述多层感知机构建为三维重建模型。

第九方面，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的方法。

第十方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的方法。

通过以上方案可知，本申请提供了一种三维重建方法，包括：将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使所述二维卷积UNet网络构建包裹所述被观测对象的代价体；将所述代价体输入三维卷积UNet网络，以使所述三维卷积UNet网络输出所述代价体中每一体素的三维融合特征；利用Transformer基于各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，并将每一空间点的点特征与其所匹配图像的颜色特征融合，得到每一空间点的点融合特征；将所有空间点的点融合特征输入多层感知机，以使所述多层感知机输出各空间点的颜色、符号距离和语义分割结果；针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，并基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失；若所述综合损失符合预设条件，则当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机构建为三维重建模型，并利用所述三维重建模型对目标对象进行三维表面重建。

可见，本申请的有益效果为：以同一被观测对象在多个视角下的图像为基础，首先利用二维卷积UNet网络基于各图像的平面图像特征构建包裹被观测对象的代价体；之后利用三维卷积UNet网络得到每一体素的三维融合特征，使得每一体素的特征能够增强弱纹理表示；进而利用Transformer基于各体素的三维融合特征得到每一空间点的点融合特征，最后利用多层感知机基于所有空间点的点融合特征输出各空间点的颜色、符号距离和语义分割结果；由此计算计算颜色损失、深度损失、平面法向损失和语义分割损失，并确定综合损失；若综合损失符合预设条件，则当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机构建为三维重建模型，并利用三维重建模型对目标对象进行三维表面重建。可见，该方案能够在重建过程中增强弱纹理平面的特征表示，增大特征的感受域，并联合二维的平面图像特征，增强三维特征的表示能力，由此可以实现场景特征增强，从而提高场景三维重建质量。

相应地，本申请提供的一种三维重建装置、设备及可读存储介质，一种模型训练方法、装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种三维重建方法流程图；

图2为本申请公开的一种三维场景示意图；

图3为本申请公开的一种模型训练方法流程图；

图4为本申请公开的一种室内三维场景的重建过程示意图；

图5为本申请公开的一种室内三维场景的重建模型的训练过程示意图；

图6为本申请公开的另一种三维重建方法流程图；

图7为本申请公开的一种三维重建装置示意图；

图8为本申请公开的一种电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，传统的三维重建方法基于输入的RGB图像预测深度图，然后基于深度图获得最终的重建图像，该方法依赖于特征匹配和深度估计的准确度，而输入图像中墙面、桌面等弱纹理区域，难以进行精准的特征匹配和深度估计。可见，传统方案对于弱纹理平面难以完成高质量重建，会降低重建图像的精准度。为此，本申请提供了一种三维重建方案和一种模型训练方案，能够提高弱纹理平面的重建效果。

参见图1所示，本申请实施例公开了一种三维重建方法，包括：

S101、获取同一被观测对象在多个视角下的目标图像。

在本实施例中，被观测对象可以是一个物体或多个物体的组合。如图2所示，被观测对象是三维空间中椅子、墙壁、地面等的组合。参照图2所示，当观测视角不同时，图像中呈现的物体的形状有所差异，因此对于同一被观测对象，可在多个视角下得到同一被观测对象的多个目标图像。

S102、基于各目标图像的二维特征（即平面图像特征）构建包裹被观测对象的三维结构。

通常情况下，包裹被观测对象的三维结构（即代价体）为规则体，如：长方体。例如：当被观测对象为手机时，则可以构建一个体积大于手机体积的长方体，以使该长方体包裹整个手机。在一种实施方式中，基于各目标图像的二维特征构建包裹被观测对象的三维结构，包括：利用二维卷积的UNet网络提取每一目标图像的二维特征；将每一目标图像的二维特征转换为新视角下的特征值，并利用特征值构建三维结构。

S103、提取三维结构中每一体素的三维特征，并使每一体素的三维特征与其所匹配目标图像的二维特征融合，得到每一体素的三维融合特征。

其中，体素为构成三维结构的最小单位，一个体素的大小可以灵活设定，如可以为：512×512×512。在一种实施方式中，提取三维结构中每一体素的三维特征，包括：利用三维卷积的UNet网络提取每一体素的三维特征。

如前所述，当观测视角不同时，同一被观测对象在图像中呈现的物体的形状有所差异，因此在任一视角下得到的任一个目标图像中包括有限的物体特征信息。而物体在三维空间中展示时，其表面全部的特征信息都能呈现，因此使每一体素的三维特征与其所匹配目标图像的二维特征融合时，针对当前体素中的任意像素点A，在其所匹配目标图像中取像素点A所对应的特征进行融合，如果当前所匹配目标图像中没有像素点A对应的特征，那么跳过像素点A，针对当前体素中的其他像素点进行特征融合。

S104、利用各体素的三维融合特征计算新视角下三维结构的所有空间点的点特征，并使每一空间点的点特征与其所匹配目标图像的颜色特征融合，得到每一空间点的点融合特征。

在一种实施方式中，利用各体素的三维融合特征计算新视角下三维结构的所有空间点的点特征，包括：在新视角下对所述三维结构进行采样，并利用Transformer基于各体素的三维融合特征计算每一采样点特征，以得到新视角下所述三维结构的所有空间点的点特征。在一种实施方式中，利用各体素的三维融合特征计算每一采样点特征，包括：针对每一采样点，对当前采样点的邻域体素的三维融合特征进行自适应插值计算，得到当前采样点的采样点特征。例如：从新视角所对应观测点发射光线至三维结构，以对三维结构的三维空间进行采样，得到一系列采样点。对于每一采样点，利用Transformer对其邻域体素进行自适应插值计算，得到此采样点的特征表示，也就得到了此采样点的采样点特征。

S105、基于所有空间点的点融合特征重建被观测对象在新视角下的新图像。

在一种实施方式中，基于所有空间点的点融合特征重建被观测对象在新视角下的新图像，包括：基于所有空间点的点融合特征预测各空间点的颜色和各空间点与新视角所对应观测点的距离；基于各空间点的颜色和各空间点与新视角所对应观测点的距离的体渲染结果重建得到新图像。其中，基于所有空间点的点融合特征预测各空间点的颜色和各空间点与新视角所对应观测点的距离，包括：将所有空间点的点融合特征输入多层感知机，以使多层感知机输出各空间点的颜色和各空间点与新视角所对应观测点的距离。

需要说明的是，多层感知机可以输出各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果，在预测阶段，输出的各空间点的语义分割结果未参与后续计算。

可见，本实施例以被观测对象在多个视角下的目标图像为基础，预测并重建该被观测对象未知视角（即新视角）下的图像，并且在重建过程中增强了弱纹理平面的特征表示，增大了特征的感受域，并联合二维图像特征增强了三维特征的表示能力，由此可以实现场景特征增强，从而提高场景三维重建质量。

下面对本申请实施例提供的一种模型训练方法进行介绍，下文描述的一种模型训练方法与本文描述的任意实施例可以相互参照。

参见图3所示，本申请实施例公开了一种模型训练方法，包括：

S301、从训练集中获取至少两个训练图像：训练集包括：同一被观测对象在多个视角下的图像。

在本实施例中，每一视角下的图像对应有深度图，且图像中每一像素点对应有颜色真值、平面法向真值和语义分割真值，这些用于进行后续的损失计算。

S302、将至少两个训练图像输入特征学习网络，以使特征学习网络提取每一训练图像的二维特征；基于各训练图像的二维特征构建包裹被观测对象的三维结构；提取三维结构中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的二维特征融合，得到每一体素的三维融合特征；利用各体素的三维融合特征计算新视角下三维结构的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征。

在一种实施方式中，特征学习网络包括：二维卷积的UNet网络、三维卷积的UNet网络和Transformer；相应地，将至少两个训练图像输入特征学习网络，以使特征学习网络提取各训练图像的二维特征；基于各训练图像的二维特征构建包裹被观测对象的三维结构；提取三维结构中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的二维特征融合，得到每一体素的三维融合特征；利用各体素的三维融合特征计算新视角下三维结构的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征，包括：将每一训练图像输入二维卷积的UNet网络，以使二维卷积的UNet网络提取每一训练图像的二维特征；基于各训练图像的二维特征构建包裹被观测对象的三维结构后，利用三维卷积的UNet网络提取三维结构中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的二维特征融合，得到每一体素的三维融合特征；将各体素的三维融合特征输入Transformer，以使Transformer输出新视角下三维结构的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征。

S303、将所有空间点的点融合特征输入多层感知机，以使多层感知机输出各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果。

S304、以训练集中的被观测对象在新视角下的已有图像为基准，并针对各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果计算颜色损失、深度损失、平面法向损失和/或语义分割损失。

本实施例构建颜色损失、深度损失、平面法向损失和/或语义分割损失联合训练网络，可提升模型精度，并降低弱纹理对重建精度的影响。在一种实施方式中，以训练集中的被观测对象在新视角下的已有图像为基准，并针对各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果计算颜色损失、深度损失、平面法向损失和/或语义分割损失，包括：基于各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果进行体渲染，确定新视角下的预测图像的颜色预测值和语义分割预测值；计算颜色预测值与已有图像的颜色真值之间的颜色损失；计算多层感知机输出的各空间点与新视角所对应观测点的距离与基于已有图像的深度图确定的距离真值之间的深度损失；计算预测图像的平面法向预测值与已有图像的平面法向真值之间的平面法向损失；和/或计算语义分割预测值与已有图像的语义分割真值之间的语义分割损失。

S305、基于颜色损失、深度损失、平面法向损失和/或语义分割损失确定综合损失。

在一种实施方式中，基于颜色损失、深度损失、平面法向损失和/或语义分割损失确定综合损失，包括：按照目标公式计算综合损失，目标公式为：，表示综合损失，表示颜色损失，表示深度损失，表示平面法向损失，表示语义分割损失。其中，颜色损失、深度损失、平面法向损失和语义分割损失可按照相应权重值参与计算综合损失。例如：设定颜色损失的权重值为0.2、深度损失的权重值为0.2、平面法向损失的权重值为0.3、语义分割损失的权重值为0.3，那么为相应损失乘上其所对应权重值后，计算四个乘积的和，即可得到综合损失。其中，每一损失所对应权重值可灵活调整。

S306、若综合损失符合预设条件，则将特征学习网络和多层感知机构建为三维重建模型。

在本实施例中，将同一被观测对象在多个视角下的图像输入三维重建模型，以使所述三维重建模型输出当前被观测对象的多个符号距离集合；利用Marching Cubes算法处理多个符号距离集合，得到当前被观测对象的三维表面重建结果。其中，三维重建模型可以针对每一输入图像输出：被观测对象的三维空间点的符号距离，之后Marching Cubes算法对每一图像的输出结果进行去重合并，可得到被观测对象的三维表面重建结果。一个符号距离集合为：模型针对一个输入图像输出的符号距离值的集合。

具体的，Marching Cubes算法针对被观测对象的同一三维空间点的多个符号距离值，保留其中最小的一个，由此可得到被观测对象的每一三维空间点的最小符号距离值，基于被观测对象的所有三维空间点的最小符号距离值可得到被观测对象的三维表面重建结果。可见，Marching Cubes算法可以基于三维空间点的符号距离得到当前被观测对象的三维表面重建结果。

若综合损失不符合预设条件，则利用综合损失优化特征学习网络和多层感知机的网络参数，并利用训练集迭代训练优化后的特征学习网络和优化后的多层感知机。

本实施例以被观测对象在多个视角下的目标图像作为训练数据，训练特征学习网络和多层感知机可得到三维重建模型。在得到三维重建模型后，将任意物体的多个视角下的图像输入三维重建模型，三维重建模型即可输出同一物体在新视角下的各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果，据此借助Marching Cubes算法可得到原观测对象的三维表面重建结果。利用该三维重建模型可增强弱纹理平面的特征表示，增大特征的感受域，并联合二维图像特征增强三维特征的表示能力，实现场景特征增强，从而提高场景三维重建质量和效果。

下面以室内场景的三维重建为例进行方案介绍。

请参见图4，本实施例基于隐式神经表示进行室内场景的三维重建。如图4所示。输入多个视角的RGB图像后，场景特征增强模块利用Transformer增强任意场景三维点（即空间点）的特征表达能力（特别是弱纹理区域）；然后将三维点位置及其特征输入到场景隐式神经表示模块，学习三维场景的隐式神经表示，将三维场景表示为任意三维点的颜色、符号距离（未知观测点到物体的距离）和语义分割结果；其次，场景渲染模块利用体渲染算法，渲染得到RGB图和语义分割结果图；最后，多损失联合优化模块基于上述网络输出结果构建颜色损失、深度损失、平面法向损失、语义分割损失，利用多损失联合优化网络，以得到高质量的室内场景重建模型。

本实施例以ScanNet数据集作为训练数据，该数据集包含1613个室内场景，共有230万个视角，拥有丰富的标注信息，包括：真值相机位姿、表面重建结果和实例级语义标注信息等。

具体的，本实施例可以具体包括以下几个步骤：

（1）场景特征学习与增强：利用Transformer插值提取任意三维点的增强特征。

步骤（1）具体包括：

A、场景的多样性特征学习。

输入多个视角的、带有相机位姿的RGB图像，利用基于二维卷积的UNet网络提取每一RGB图像的多尺度二维特征表示。其中，基于二维卷积的UNet网络包含多个下采样层、上采样层和跳跃连接层。 H、 W为图像高度和宽度， C为二维特征的维度。

其中，针对每一RGB图像提取多个尺度的二维特征后，融合该RGB图像的多个尺度的二维特征，可得到该RGB图像的多尺度二维特征表示。

基于前述各RGB图像的多尺度二维特征构建代价体（即包裹物体的三维结构）。利用输入图像的相机位姿，将输入的多个视角的多尺度二维特征变换到指定的参考视角（即新的未知视角），根据转换后的特征构建基于体素的代价体 P( u,v,z)，其代价由视角间特征的方差计算得来。针对以( u,v,z)为中心的任一体素，其代价计算如下： P( u,v,z)= Var( F _i,z( u,v))。其中， z为深度值，( u,v)表示预测图像的任一像素值。 F _i,z( u,v)为深度值 z处图像特征 F _i变换到预测图像后的图像特征。

基于构建的代价体，利用基于三维卷积的UNet网络提取其三维特征表示。其中，基于三维卷积的UNet网络包含多个下采样层、上采样层和跳跃连接层。对于代价体中任一体素，该网络能够提取其三维语义和几何特征表示，得到每一体素的三维特征。对于每一体素，融合其三维特征和对应的输入图像的二维特征，得到此体素的多样性融合特征（即三维融合特征）。

B、场景三维点的增强特征抽取。

如图5所示，从参考视角下的相机（即参考视角所对应的观测点）发射光线至代价体，对代价体的三维空间进行采样，得到一系列三维点（即采样点）。对于任意三维点，利用Transformer对其邻域体素的多样性融合特征进行自适应插值计算，得到此三维点的特征表示，也就得到了此三维点的点特征。之后，将融合原始输入图像中像素的颜色信息作为高频信息，添加到相应三维点的特征表示中，以增强三维点的点特征，得到三维点的增强特征表示 a( x)。

（2）场景隐式神经表示：利用神经网络预测任意三维点的颜色、符号距离和语义分割结果。

步骤（2）具体包括：构建神经网络，以预测任意三维点的颜色、符号距离和语义分割信息。神经网络由多个多层感知机（multi-layer perceptron，MLP）构成。

以前述三维点的增强特征 a( x)作为网络输入，神经网络由多个多层感知机（multi-layer perceptron，MLP）构成，输出三维点的颜色 c( x)，符号距离 d( x)和语义分割信息 s( x)，具体的：( d( x), z( x))= F _d( x)， c( x)= F _c( x,v,z( x), a( x))， s( x)= F _s( x,v,z( x), a( x))， F _d、 F _c、 F _s分别表示多层MLP网络， a( x)为三维点的增强特征， v为光线的方向。

（3）场景渲染：利用体渲染得到预测所得RGB图像和相应语义分割结果。

如图5所示，步骤（3）具体包括：

A、利用体渲染得到预测图像的RGB图，相应的计算公式为：

。其中， tr是符号距离的截断阈值， σ为钟形函数， d( x)为预测的符号距离。

对于渲染得到的预测图像的RGB图像中的任一像素的颜色值，其取值为沿光线采样得到的一系列三维点颜色值的加权和，相应的计算公式为：；其中， K为采样得到的三维点个数， c _i( x)为预测的任意三维点的颜色值。

B、利用体渲染结果得到语义分割图，相应的计算公式为：

；其中， s _i( x)为预测的三维点的语义分割信息，表示预测所得RGB图像的语义分割结果，通过softmax函数可以得到当前三维点 x被渲染为平面上点的概率。

（4）构建多损失，以联合优化网络，最终输出高质量的室内场景重建模型。

如图5所示，步骤（4）具体包括：

A、生成平面法向真值，以确定平面法向真值。

针对输入网络的RGB图像，利用平面检测算法（如PlaneRCNN）确定平面法向及平面分割结果。本实施例根据平面分割结果，将输入图像的像素分为“平面”和“非平面”两类，并根据此结果将平面法向保存成图像中每个像素的法向，作为平面法向真值。其中，平面预测算法需在ScanNet数据集上进行预训练，以提高预测准确性。

B、构建颜色损失、深度损失、平面法向损失和语义分割损失，以利用多损失联合优化网络。

B-1：构建颜色损失时，根据已知RGB图约束生成的新视角图像的颜色，颜色损失的计算公式为：；表示颜色损失，表示颜色预测值，表示已知RGB图的颜色真值，表示预测图像中的任意像素点， N表示预测图像中的像素点总数。

B-2：构建深度损失（几何损失）时，根据已知RGB图的深度图计算得到符号距离真值，深度损失用以约束预测的符号距离接近真值。深度损失的计算公式为：；表示深度损失，表示已知RGB图的深度真值（即符号距离真值），表示任意空间点与新视角所对应观测点的距离， S _v表示代价体 S中的任意体素。

B-3：构建平面法向损失时，根据前述得到的平面分割结果和平面法向真值构建平面分割约束；根据渲染得到的平面分割结果可以确定预测图像的像素是否在平面上，如果在平面上，则约束其对应的预测法向尽可能接近法向真值。平面法向损失的计算公式为：；表示平面法向损失， x _r表示采样光线与预测图像中的任意像素点 r的交点（即采样光线与物体表面的交点）， n( x _r)为交点 x _r处的平面法向预测值（即交点处的预测法向，由符号距离的梯度表示）， n _t表示交点 x _r处的平面法向真值， N _b表示像素点 r所在平面，为像素点 r被渲染为平面上的点的概率。

B-4：构建语义分割损失时，根据前述得到的语义分割图构建语义分割约束。本实施例只需要预测是否为平面，不关注目标类别，如此使得平面预测网络更加轻量。

其中，语义分割损失计算公式为：

；表示语义分割损失，表示预测图像中的任意像素点 r的语义分割预测值（即像素点 r被渲染为平面上的点的概率），表示已有图像中的像素点 r的语义分割真值， N表示预测图像中的像素点总数。

B-5：多损失联合训练网络，优化场景的隐式神经表示。其中网络的损失为：，据此网络损失可迭代优化网络参数。

在网络应用阶段，可利用Marching Cubes算法得到场景的表面重建图像。

可见，本实施例针对室内场景进行三维重建时，能够对图像特征进行增强表示，使得弱纹理平面也能有足够的区别，由此可处理不同大小、类型的弱纹理区域，提高室内场景的三维重建质量。其中，本实施例利用Transformer学习并优化任意采样点的特征表示，增大了特征的感受域，并联合图像特征增强了采样点的特征表示能力。在网络训练过程中，多损失联合训练网络，优化了场景的隐式神经表示，能进一步提高弱纹理平面的重建质量。

下面对本申请实施例提供的一种三维重建装置进行介绍，下文描述的一种三维重建装置与本文描述的其他实施例可以相互参照。

本申请实施例公开了一种三维重建装置，包括：

构建模块，用于基于各目标图像的二维特征构建包裹被观测对象的三维结构；

提取模块，用于提取三维结构中每一体素的三维特征，并使每一体素的三维特征与其所匹配目标图像的二维特征融合，得到每一体素的三维融合特征；

融合模块，用于利用各体素的三维融合特征计算新视角下三维结构的所有空间点的点特征，并使每一空间点的点特征与其所匹配目标图像的颜色特征融合，得到每一空间点的点融合特征；

重建模块，用于基于所有空间点的点融合特征重建被观测对象在新视角下的新图像。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种三维重建装置，在重建过程中增强了弱纹理平面的特征表示，增大了特征的感受域，并联合二维图像特征增强了三维特征的表示能力，由此可以实现场景特征增强，从而提高场景三维重建质量。

下面对本申请实施例提供的一种模型训练装置进行介绍，下文描述的一种模型训练装置与本文描述的任意实施例可以相互参照。

本申请实施例公开了一种模型训练装置，包括：

训练图像获取模块，用于从训练集中获取至少两个训练图像：训练集包括：同一被观测对象在多个视角下的图像；

特征学习模块，用于将至少两个训练图像输入特征学习网络，以使特征学习网络提取每一训练图像的二维特征；基于各训练图像的二维特征构建包裹被观测对象的三维结构；提取三维结构中每一体素的三维特征，并使每一体素的三维特征与其所匹配训练图像的二维特征融合，得到每一体素的三维融合特征；利用各体素的三维融合特征计算新视角下三维结构的所有空间点的点特征，并使每一空间点的点特征与其所匹配训练图像的颜色特征融合，得到每一空间点的点融合特征；

重建学习模块，用于将所有空间点的点融合特征输入多层感知机，以使多层感知机输出各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果；

损失计算模块，用于以训练集中的被观测对象在新视角下的已有图像为基准，并针对各空间点的颜色、各空间点与新视角所对应观测点的距离和各空间点的语义分割结果计算颜色损失、深度损失、平面法向损失和/或语义分割损失；基于颜色损失、深度损失、平面法向损失和/或语义分割损失确定综合损失；

输出模块，用于若综合损失符合预设条件，则将特征学习网络和多层感知机构建为三维重建模型。

可见，本实施例提供了一种模型训练装置，该装置训练得到的三维重建模型可增强弱纹理平面的特征表示，增大特征的感受域，并联合二维图像特征增强三维特征的表示能力，实现场景特征增强，从而提高场景三维重建质量和效果。

下面对本申请实施例提供的另一种三维重建方法进行介绍，下文描述的一种三维重建方法与本文描述的任意实施例可以相互参照。

请参见图6，本申请实施例公开了一种三维重建方法，包括：

S601、将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使二维卷积UNet网络构建包裹被观测对象的代价体。

在一种实施方式中，将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使二维卷积UNet网络构建包裹被观测对象的代价体，包括：将获取到的图像输入二维卷积UNet网络，以使二维卷积UNet网络提取每一图像的平面图像特征，并基于各图像的平面图像构建包裹被观测对象的代价体。

S602、将代价体输入三维卷积UNet网络，以使三维卷积UNet网络输出代价体中每一体素的三维融合特征。

在一种实施方式中，将代价体输入三维卷积UNet网络，以使三维卷积UNet网络输出代价体中每一体素的三维融合特征，包括：将代价体输入三维卷积UNet网络，以使三维卷积UNet网络提取代价体中每一体素的三维特征，并将每一体素的三维特征与其所匹配图像的平面图像特征融合，得到每一体素的三维融合特征。

S603、利用Transformer基于各体素的三维融合特征计算新视角下代价体的所有空间点的点特征，并将每一空间点的点特征与其所匹配图像的颜色特征融合，得到每一空间点的点融合特征。

在一种实施方式中，利用Transformer基于各体素的三维融合特征计算新视角下代价体的所有空间点的点特征，包括：在新视角下对代价体进行光线采样，并利用Transformer对每一采样点的邻域体素的三维融合特征进行自适应插值计算，得到每一采样点的采样点特征，得到新视角下代价体的所有空间点的点特征。

S604、将所有空间点的点融合特征输入多层感知机，以使多层感知机输出各空间点的颜色、符号距离和语义分割结果。

S605、针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，并基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失。

其中，各空间点的符号距离即：各空间点与新视角所对应观测点的距离。

在一种实施方式中，针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，包括：基于各空间点的颜色、符号距离和语义分割结果进行体渲染，确定新视角下的预测图像的颜色预测值和语义分割预测值；以训练集中的被观测对象在新视角下的已有图像为基准，计算颜色预测值与已有图像的颜色真值之间的颜色损失；计算多层感知机输出的各空间点的符号距离与基于已有图像的深度图确定的距离真值之间的深度损失；计算预测图像的平面法向预测值与已有图像的平面法向真值之间的平面法向损失；计算语义分割预测值与已有图像的语义分割真值之间的语义分割损失。

在一种实施方式中，颜色损失的计算公式为：；表示颜色损失，表示颜色预测值，表示已有图像的颜色真值，表示预测图像中的任意像素点， N表示预测图像中的像素点总数。

在一种实施方式中，深度损失的计算公式为：；表示深度损失，表示基于已有图像的深度图确定的距离真值，表示任意空间点与新视角所对应观测点的距离， S _v表示代价体 S中的任意体素。

在一种实施方式中，平面法向损失的计算公式为：；表示平面法向损失， x _r表示采样光线与预测图像中的任意像素点 r的交点， n( x _r)为交点 x _r处的平面法向预测值， n _t表示交点 x _r处的平面法向真值， N _b表示像素点 r所在平面，表示像素点 r的语义分割预测值。

在一种实施方式中，语义分割损失的计算公式为：；表示语义分割损失，表示预测图像中的任意像素点 r的语义分割预测值，表示已有图像中的像素点 r的语义分割真值， N表示预测图像中的像素点总数。

在一种实施方式中，基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失，包括：按照目标公式计算综合损失，目标公式为：，表示综合损失，表示颜色损失，表示深度损失，表示平面法向损失，表示语义分割损失。

S606、若综合损失符合预设条件，则当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机构建为三维重建模型，并利用三维重建模型对目标对象进行三维表面重建。

其中，目标对象为任意被观测对象，如：某一场景、物品等。

在一种实施方式中，若综合损失不符合预设条件，则利用综合损失优化当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机的网络参数，并利用训练集迭代训练优化后的二维卷积UNet网络、优化后的三维卷积UNet网络、优化后的Transformer和优化后的多层感知机。

在一种实施方式中，利用三维重建模型对目标对象进行三维表面重建，包括：利用三维重建模型处理目标对象在多个视角下的图像，得到处理结果；基于处理结果得到目标对象的三维表面重建结果。

其中，利用三维重建模型处理目标对象在多个视角下的图像，得到处理结果，包括：将目标对象在多个视角下的图像输入三维重建模型，以使三维重建模型输出目标对象的多个符号距离集合；将多个符号距离集合作为处理结果。

其中，基于处理结果得到目标对象的三维表面重建结果，包括：利用MarchingCubes算法对处理结果进行筛选和计算，得到目标对象的三维表面重建结果。

其中，基于处理结果得到目标对象的三维表面重建结果，包括：从处理结果中获取目标对象的同一三维空间点的所有符号距离值，保留其中最小的一个，得到目标对象的每一三维空间点的最小符号距离值；基于目标对象的所有三维空间点的最小符号距离值得到目标对象的三维表面重建结果。

下面对本申请实施例提供的一种三维重建方法进行介绍，下文描述的一种三维重建方法与本文描述的任意实施例可以相互参照。

本申请实施例公开了一种三维重建方法，包括：获取同一室内场景在多个视角下的图像；将室内场景在多个视角下的图像输入三维重建模型，以使三维重建模型输出室内场景的多个符号距离集合；三维重建模型基于上述任意实施例所述的方法构建得到；基于多个符号距离集合得到室内场景的三维表面重建结果。

本实施例可针对室内场景进行三维重建，并且能够对室内场景的弱纹理平面进行特征增强，提高室内场景的三维重建质量。

下面对本申请实施例提供的一种三维重建装置进行介绍，下文描述的一种三维重建装置与本文描述的任意实施例可以相互参照。

请参见图7，本申请实施例公开了一种三维重建装置，包括：

平面特征处理模块701，用于将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使二维卷积UNet网络构建包裹被观测对象的代价体；

三维特征处理模块702，用于将代价体输入三维卷积UNet网络，以使三维卷积UNet网络输出代价体中每一体素的三维融合特征；

融合模块703，用于利用Transformer基于各体素的三维融合特征计算新视角下代价体的所有空间点的点特征，并将每一空间点的点特征与其所匹配图像的颜色特征融合，得到每一空间点的点融合特征；

预测模块704，用于将所有空间点的点融合特征输入多层感知机，以使多层感知机输出各空间点的颜色、符号距离和语义分割结果；

损失计算模块705，用于针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，并基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失；

构建模块706，用于若综合损失符合预设条件，则当前二维卷积UNet网络、当前三维卷积UNet网络、当前Transformer和当前多层感知机构建为三维重建模型，并利用三维重建模型对目标对象进行三维表面重建。

本申请实施例公开了一种三维重建装置，包括：

处理模块，用于将室内场景在多个视角下的图像输入三维重建模型，以使三维重建模型输出室内场景的多个符号距离集合；三维重建模型基于上述任一项的方法构建得到；

场景重建模块，基于多个符号距离集合得到室内场景的三维表面重建结果。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与本文描述的其他实施例可以相互参照。

参见图8所示，本申请实施例公开了一种电子设备，包括：

存储器801，用于保存计算机程序；

处理器802，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与本文描述的其他实施例可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的方法。其中，可读存储介质为计算机可读存储介质，其作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统、计算机程序及数据等，存储方式可以是短暂存储或者永久存储。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种三维重建方法，其特征在于，包括：

2.根据权利要求1所述的一种三维重建方法，其特征在于，所述利用Transformer基于各体素的三维融合特征计算新视角下所述代价体的所有空间点的点特征，包括：

3.根据权利要求1所述的一种三维重建方法，其特征在于，还包括：

4.根据权利要求1所述的一种三维重建方法，其特征在于，所述利用所述三维重建模型对目标对象进行三维表面重建，包括：

基于所述处理结果得到所述目标对象的三维表面重建结果。

5.根据权利要求4所述的一种三维重建方法，其特征在于，所述利用所述三维重建模型处理所述目标对象在多个视角下的图像，得到处理结果，包括：

将所述多个符号距离集合作为所述处理结果。

6.根据权利要求4所述的一种三维重建方法，其特征在于，所述基于所述处理结果得到所述目标对象的三维表面重建结果，包括：

7.根据权利要求4所述的一种三维重建方法，其特征在于，所述基于所述处理结果得到所述目标对象的三维表面重建结果，包括：

8.根据权利要求1所述的一种三维重建方法，其特征在于，所述针对各空间点的颜色、符号距离和语义分割结果计算颜色损失、深度损失、平面法向损失和语义分割损失，包括：

9.根据权利要求8所述的一种三维重建方法，其特征在于，所述颜色损失的计算公式为：；表示所述颜色损失，表示颜色预测值，表示所述已有图像的颜色真值，表示所述预测图像中的任意像素点，N表示所述预测图像中的像素点总数。

10.根据权利要求8所述的一种三维重建方法，其特征在于，所述深度损失的计算公式为：；表示所述深度损失，表示基于所述已有图像的深度图确定的距离真值，表示任意空间点与新视角所对应观测点的距离，S _v表示代价体S中的任意体素。

11.根据权利要求8所述的一种三维重建方法，其特征在于，所述平面法向损失的计算公式为：；表示所述平面法向损失，x _r表示采样光线与所述预测图像中的任意像素点r的交点，n(x _r)为交点x _r处的平面法向预测值，n _t表示交点x _r处的平面法向真值，N _b表示像素点r所在平面，表示像素点r的语义分割预测值。

12.根据权利要求8所述的一种三维重建方法，其特征在于，所述语义分割损失的计算公式为：；表示所述语义分割损失，表示所述预测图像中的任意像素点r的语义分割预测值，表示所述已有图像中的像素点r的语义分割真值，N表示所述预测图像中的像素点总数。

13.根据权利要求1至12任一项所述的一种三维重建方法，其特征在于，所述基于颜色损失、深度损失、平面法向损失和语义分割损失确定综合损失，包括：

按照目标公式计算所述综合损失，所述目标公式为：，表示所述综合损失，表示所述颜色损失，表示所述深度损失，表示所述平面法向损失，表示所述语义分割损失。

14.根据权利要求1至12任一项所述的一种三维重建方法，其特征在于，所述将从训练集中获取到的同一被观测对象在多个视角下的图像输入二维卷积UNet网络，以使所述二维卷积UNet网络构建包裹所述被观测对象的代价体，包括：

15.根据权利要求1至12任一项所述的一种三维重建方法，其特征在于，所述将所述代价体输入三维卷积UNet网络，以使所述三维卷积UNet网络输出所述代价体中每一体素的三维融合特征，包括：

16.一种三维重建方法，其特征在于，包括：

获取同一室内场景在多个视角下的图像；

将所述室内场景在多个视角下的图像输入三维重建模型，以使所述三维重建模型输出所述室内场景的多个符号距离集合；所述三维重建模型基于权利要求1至15任一项所述的一种三维重建方法构建得到；

17.一种三维重建装置，其特征在于，包括：

18.一种三维重建装置，其特征在于，包括：

处理模块，用于将所述室内场景在多个视角下的图像输入三维重建模型，以使所述三维重建模型输出所述室内场景的多个符号距离集合；所述三维重建模型基于权利要求1至15任一项所述的一种三维重建方法构建得到；

19.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至16任一项所述的一种三维重建方法。

20.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至16任一项所述的一种三维重建方法。