CN115423946B

CN115423946B - 大场景弹性语义表征与自监督光场重建方法及装置

Info

Publication number: CN115423946B
Application number: CN202211363939.5A
Authority: CN
Inventors: 方璐; 张晋之; 唐若凡
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-04-07
Anticipated expiration: 2042-11-02
Also published as: US11763471B1; CN115423946A

Abstract

本公开涉及计算机技术领域，尤其涉及一种大场景弹性语义表征与自监督光场重建方法及装置。其中，该大场景弹性语义表征与自监督光场重建方法，包括：获取目标场景对应的第一深度图集合，其中，第一深度图集合包括至少一个视角对应的第一深度图；将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合，其中，第二深度图集合包括至少一个视角对应的第二深度图；对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。采用本公开可以提高光场重建的准确性、完整性和质量。

Description

大场景弹性语义表征与自监督光场重建方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种大场景弹性语义表征与自监督光场重建方法及装置。

背景技术

大场景光场重建是人工智能和机器视觉领域的重要课题，其对于实现场景的环境感知、几何测绘、表征压缩、视角渲染等任务具有重要的意义。探索自监督的大场景的光场重构算法也是将增强现实（Augmented Reality，AR）、虚拟现实（Virtual Reality，VR）等技术进行大规模实际应用的重要前提。然而相关技术中，光场重建的准确性、完整性和质量较低。因此，如何提高光场重建的准确性、完整性和质量成为本领域技术人员关注的重点。

发明内容

本公开提供了一种大场景弹性语义表征与自监督光场重建方法及装置，主要目的在于提高光场重建的准确性、完整性和质量。

根据本公开的一方面，提供了一种大场景弹性语义表征与自监督光场重建方法，包括：

获取目标场景对应的第一深度图集合，其中，所述第一深度图集合包括至少一个视角对应的第一深度图；

将所述第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合，其中，所述第二深度图集合包括至少一个视角对应的第二深度图；

对所述至少一个视角对应的第二深度图进行融合，得到所述目标场景对应的目标场景点云。

可选的，所述获取目标场景对应的第一深度图集合，包括：

利用光场重建算法获取所述目标场景中至少一个视角对应的第一深度图、法向量图和置信度度量图，其中，所述第一深度图、所述法向量图和所述置信度度量图一一对应；

根据所述至少一个视角对应的第一深度图、法向量图和置信度度量图，确定所述目标场景对应的第一深度图集合。

可选的，所述将所述第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合，包括：

确定任一所述第一深度图对应的弹性语义表征；

根据所述弹性语义表征、所述第一深度图对应的法向量图和置信度度量图，确定所述第一深度图对应的候选点集合，所述候选点集合包括至少一个候选点；

控制所述至少一个候选点分别在所述第一深度图中进行像素传播，得到所述第二深度图。

可选的，所述控制所述至少一个候选点分别在所述第一深度图中进行像素传播，得到所述第二深度图，包括：

控制所述至少一个候选点分别在所述第一深度图中进行像素传播，得到第二传播深度图集合，其中，所述第二传播深度图集合包括至少一个第二传播深度图，所述第二传播深度图与所述候选点一一对应；

对所述第一深度图进行随机扰动，得到第一深度；

对所述第一深度和所述至少一个第二传播深度图对应的第二深度进行评估，选取评估结果满足深度条件的第二传播深度图作为所述第二深度图。

可选的，所述对所述第一深度和所述至少一个第二传播深度图对应的第二深度进行评估，包括：

对所述第一深度和所述至少一个第二传播深度图对应的第二深度进行跨视角的光度一致性度量、语义一致性度量和参考视角内的平滑性度量。

获取初始弹性语义重建模型；

将所述第一深度图集合输入至所述初始弹性语义重建模型，得到第三深度图集合；

若所述第三深度图集合满足模型迭代条件，则对所述初始弹性语义重建模型进行迭代训练，直至所述第三深度图集合不满足所述模型迭代条件，得到所述目标弹性语义重建模型，并确定所述不满足所述模型迭代条件的第三深度图集合为所述第二深度图集合。

可选的，所述对所述初始弹性语义重建模型进行迭代训练，包括：

确定所述第三深度图集合对应的对比损失函数和空间聚集损失函数；

根据所述对比损失函数和所述空间聚集损失函数，确定总体损失函数；

根据所述总体损失函数，对所述初始弹性语义重建模型进行反向传播训练。

可选的，所述第三深度图集合包括至少一个视角对应的第三深度图，所述确定所述第三深度图集合对应的对比损失函数，包括：

确定所述至少一个视角对应的第三深度图中每一个像素对应的置信度，得到目标像素集合，其中，所述目标像素集合包括至少一个目标像素，所述目标像素的置信度不小于置信度阈值；

确定所述目标像素集合中所有目标像素对应的对比学习损失函数之和为所述对比损失函数。

可选的，所述第三深度图集合包括至少一个视角对应的第三深度图，所述确定所述第三深度图集合对应的空间聚集损失函数，包括：

对所述至少一个视角对应的第三深度图中每一个像素进行高斯采样，得到所述每一个像素对应的考察点集合，其中，所述考察点集合包括至少一个考察点；

根据所述考察点集合，确定所述空间聚集损失函数。

根据本公开的另一方面，提供了一种大场景弹性语义表征与自监督光场重建装置，包括：

集合获取单元，用于获取目标场景对应的第一深度图集合，其中，所述第一深度图集合包括至少一个视角对应的第一深度图；

集合生成单元，用于将所述第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合，其中，所述第二深度图集合包括至少一个视角对应的第二深度图；

深度图融合单元，用于对所述至少一个视角对应的第二深度图进行融合，得到所述目标场景对应的目标场景点云。

可选的，所述集合获取单元用于获取目标场景对应的第一深度图集合时，具体用于：

可选的，所述集合生成单元用于将所述第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合时，具体用于：

确定任一所述第一深度图对应的弹性语义表征；

可选的，所述集合生成单元用于控制所述至少一个候选点分别在所述第一深度图中进行像素传播，得到所述第二深度图时，具体用于：

对所述第一深度图进行随机扰动，得到第一深度；

可选的，所述集合生成单元用于对所述第一深度和所述至少一个第二传播深度图对应的第二深度进行评估时，具体用于：

获取初始弹性语义重建模型；

可选的，所述集合生成单元用于对所述初始弹性语义重建模型进行迭代训练时，具体用于：

可选的，所述第三深度图集合包括至少一个视角对应的第三深度图，所述集合生成单元用于确定所述第三深度图集合对应的对比损失函数时，具体用于：

可选的，所述第三深度图集合包括至少一个视角对应的第三深度图，所述集合生成单元用于确定所述第三深度图集合对应的空间聚集损失函数时，具体用于：

根据所述考察点集合，确定所述空间聚集损失函数。

根据本公开的另一方面，提供了一种终端，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述一方面中任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述一方面中任一项所述的方法。

在本公开一个或多个实施例中，通过获取目标场景对应的第一深度图集合，其中，第一深度图集合包括至少一个视角对应的第一深度图；将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合，其中，第二深度图集合包括至少一个视角对应的第二深度图；对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。因此可以提高光场重建的准确性、完整性和质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出本公开实施例提供的第一种大场景弹性语义表征与自监督光场重建方法的流程示意图；

图2示出本公开实施例提供的第二种大场景弹性语义表征与自监督光场重建方法的流程示意图；

图3示出本公开实施例提供的一种第二深度图的生成流程图；

图4示出本公开实施例提供的第三种大场景弹性语义表征与自监督光场重建方法的流程示意图；

图5示出本公开实施例提供的一种模型联合优化的流程示意图；

图6示出本公开实施例提供的一种大场景弹性语义表征与自监督光场重建装置的结构示意图；

图7是用来实现本公开实施例的大场景弹性语义表征与自监督光场重建方法的终端的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，光场重建手段主要包括激光雷达，结构光，立体视觉等。其中，传统的立体视觉算法可以为自监督光场重建算法，该自监督光场重建算法主要可以分为基于块匹配的重建算法和基于自监督学习的重建算法。

在一些实施例中，激光雷达等直接的光场成像设备目前仍然具有价格昂贵、成像速度慢、整机重量大等缺点，无法进行大规模的推广。而基于结构光的重建算法则具有受环境背景光照影响大、测深范围小等缺陷。

在一些实施例中，基于块匹配的重建算法的核心原理是通过计算两不同视角的图像块之间的特征一致性来衡量匹配程度，其工作的过程可以归纳为三部分：视图选择、匹配代价计算和深度传播。在选定“参考视角”后，再选择一些能提供较丰富信息的邻近视角作为“源视角”，并采样一些深度假设，通过度量“参考视角”和“源视角”的特征一致性来衡量深度采样的好坏，在每轮迭代中留下当前最优的深度假设，并最终生成逐视角的深度图，进行深度图融合。基于自监督学习的重建算法则是通过卷积神经网络抽取每个视角的特征，利用单应性投影变换进行特征体构造，再使用特征体规整和整合输出各视角的深度图，并通过多视角几何一致性和光度一致性来监督网络的学习，最终将多视角的深度图融合为场景点云。然而，上述的两种自监督光场重建算法完全依赖从多视角图像中寻找光度一致性匹配，其性能均严重受到光度一致性度量的约束，对于非理想朗伯表面和无纹理区域不能准确建模。

在一些实施例中，随着神经辐射场等隐式表征技术的发展，还可以通过对场景的色彩、光照和体密度分布进行统一的建模，实现高分辨率的新视角场景渲染。然而这类方法重建出的体密度分布具有过度平滑的问题，无法通过这样的体密度表示抽取出场景的精细几何表征。

通过自监督学习方法从图像中获取隐空间表征的范式在二维视觉任务上受到了广泛的关注，这样的方法有助于摆脱传统的监督学习范式对于人手工标注数据的巨量依赖，其在物体分类、物体检测、语义分割、块分割等任务上已经取得了大量的进展。一些算法尝试将这样的方法运用到多视角光场重建任务中，通过表征学习的预训练网络抽取图像中的语义信息，并利用其作为额外的一致性度量指标来提升重建结果。然而，这样的算法仅仅专注于用网络产生语义表征并用于后续一致性度量的监督，不能很好地利用几何的边界条件对语义表征进行显式的约束。同时，其仅利用图像特征先验地对场景进行划分，再进行逐区域的补全，专注于利用深度神经网络学习图像的语义划分并利用其进行后续的多视角一致性监督，不能利用几何边界条件对初始的语义划分进行约束，无法对错误的划分进行修正，使得最初的错误划分无法得到修正，直接导致最终重建结果的错误。

下面结合具体的实施例对本公开进行详细说明。

在第一个实施例中，如图1所示，图1示出本公开实施例提供的第一种大场景弹性语义表征与自监督光场重建方法的流程示意图，该方法可依赖于计算机程序实现，可运行于进行大场景弹性语义表征与自监督光场重建方法的装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

其中，大场景弹性语义表征与自监督光场重建装置可以是具有大场景弹性语义表征与自监督光场重建功能的终端，该终端包括但不限于：可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理（personal digital assistant，PDA）、第五代移动通信技术（5th Generation Mobile Communication Technology，5G）网络、第四代移动通信技术（the 4th generation mobile communication technology，4G)网络、第三代移动通信技术（3rd-Generation，3G)网络或未来演进网络中的终端等。

具体的，该大场景弹性语义表征与自监督光场重建方法包括：

S101，获取目标场景对应的第一深度图集合；

根据一些实施例，目标场景指的是需要进行光场重建的场景。该目标场景并不特指某一固定场景。

在一些实施例中，第一深度图指的是从目标场景中获取到的未经优化的深度图。该第一深度图并不特指某一固定深度图。例如，当目标场景发生变化时，该第一深度图可以发生变化。

在一些实施例中，第一深度图集合指的是由至少一个视角对应的第一深度图汇聚而成的一个集合。该第一深度图集合并不特指某一固定集合。例如，当目标场景发生变化时，该第一深度图集合可以发生变化。当第一深度图发生变化时，该第一深度图集合也可以发生变化。

易于理解的是，当终端进行大场景弹性语义表征与自监督光场重建时，终端可以获取目标场景对应的第一深度图集合。

S102，将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合；

根据一些实施例，目标弹性语义重建模型指的是训练好的用于对第一深度图进行重建的模型。该目标弹性语义重建模型并不特指某一固定模型。该目标弹性语义重建模型可以通过弹性语义表征和场景几何进行迭代式的联合优化得到。具体而言，即在通过弹性语义表征和场景几何进行迭代式的联合优化时，将物体表面联通区域的深度一致性和边界遮挡关系作为自监督信号，监督神经网络进行逐像素语义特征的学习，并将这样的尺度、形状可变的弹性语义表征进一步用于更为准确的深度重建，形成迭代式的优化过程。

在一些实施例中，该迭代式的优化过程不需要额外的深度监督信号作为训练数据，属于无监督学习的方法。

在一些实施例中，第二深度图指的是目标弹性语义重建模型根据第一深度图进行重建后生成的深度图。该第二深度图的精细度大于第一深度图。该第二深度图与第一深度图一一对应。该第二深度图例如可以为基于弹性语义的鲁棒深度图。

在一些实施例中，第二深度图集合指的是由至少一个视角对应的第二深度图汇聚而成的一个集合。该第二深度图集合并不特指某一固定集合。例如，当第一深度图集合发生变化时，该第二深度图集合可以发生变化。当目标弹性语义重建模型发生变化时，该第二深度图集合也可以发生变化。

易于理解的是，当终端获取到目标场景对应的第一深度图集合时，终端可以将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合。

S103，对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。

根据一些实施例，场景点云指的是某一场景下的三维点组成的数据集。目标场景点云即为目标场景下的三维点组成的数据集。

在一些实施例中，三维点包含的信息包括的不限于三维坐标 X，Y，Z、颜色、分类值、强度值、时间等。

易于理解的是，当终端获取到第二深度图集合时，终端可以对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。

综上，本公开实施例提供的方法，通过获取目标场景对应的第一深度图集合；将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合；对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。因此，通过采用通过弹性语义表征和场景几何进行迭代式的联合优化获取到的目标弹性语义重建模型对第一深度图集合进行重建，可以无需额外的深度监督信号作为训练数据，可以提高光场重建的准确性、完整性和质量，可以获取到高质量、高完整性、高精度的光场重建结果。

请参见图2，图2示出本公开实施例提供的第二种大场景弹性语义表征与自监督光场重建方法的流程示意图。该方法可以由终端执行。具体的，该大场景弹性语义表征与自监督光场重建方法包括：

S201，利用光场重建算法获取目标场景中至少一个视角对应的第一深度图、法向量图和置信度度量图；

根据一些实施例，第一深度图、法向量图和置信度度量图一一对应。

根据一些实施例，该光场重建算法包括但不限于基于块匹配的重建算法、多视角立体视觉（Multiple View Stereo，MVS）光场重建算法、SFM（structure-from-motion）光场重建算法等。

在一些实施例中，块匹配指的是图像去噪。也就是通过将查询块与相邻的图像块进行匹配，从这些相邻块中找出距离查询块距离最近的K个块。所谓的相邻也并不是绝对的位置上的相邻，也由此可以引出局部搜索（local）和全局搜索（non-local）。其中，K为正整数。

在一些实施例中，法向量图指的是存储第一深度图中法向量信息的纹理图。该法向量图可以描述第一深度图中每个像素点的法向量。

在一些实施例中，置信度度量图指的是用于评估图像的质量的度量图。本公开实施例中，该置信度度量图用于评估对应的第一深度图的质量。

易于理解的是，当终端进行大场景弹性语义表征与自监督光场重建时，终端可以利用光场重建算法获取目标场景中每个视角i对应的第一深度图Di、法向量图ni和置信度度量图Ci。其中，i为正整数。

S202，根据至少一个视角对应的第一深度图、法向量图和置信度度量图，确定目标场景对应的第一深度图集合；

易于理解的是，当终端获取到每个视角i对应的第一深度图Di、法向量图ni和置信度度量图Ci时，终端可以将每个视角i对应的第一深度图Di、法向量图ni和置信度度量图Ci汇聚到一个集合，得到目标场景对应的第一深度图集合。

S203，确定任一第一深度图对应的弹性语义表征；

根据一些实施例，语义表征指的是按语法结构、章法结构及写作技巧等规则,将文字编排成表达一定新闻内容的文字序列的过程。

易于理解的是，当终端获取到目标场景对应的第一深度图集合时，终端可以确定该第一深度图集合中任一第一深度图Di对应的弹性语义表征。

S204，根据弹性语义表征、第一深度图对应的法向量图和置信度度量图，确定第一深度图对应的候选点集合；

根据一些实施例，将第一深度图集合输入至目标弹性语义重建模型时，可以利用目标弹性语义重建模型中的弹性语义表征进行精细深度图的生成。也就是说，可以通过基于弹性语义表征的匹配与传播模块来实现精细深度图，即第二深度图的生成。

易于理解的是，图3示出本公开实施例提供的一种第二深度图的生成流程图。如图3所示，当终端获取到第一深度图集合中任一第一深度图Di对应的弹性语义表征时，终端可以根据该弹性语义表征、该第一深度图Di对应的法向量图和置信度度量图，确定该第一深度图Di对应的候选点集合。其中，候选点集合包括至少一个候选点。

S205，控制至少一个候选点分别在第一深度图中进行像素传播，得到第二深度图；

根据一些实施例，当终端控制至少一个候选点分别在第一深度图中进行像素传播时，可以利用邻域平面假设，将当前深度和法向的预测值基于弹性语义相似性向10*10范围内的邻近像素进行传播，以期望当前某个像素的准确几何预测能够向全图传播以取得最终的精细重建结果。

根据一些实施例，如图3所示，当终端控制至少一个候选点分别在第一深度图中进行像素传播，得到第二深度图时，首先，可以控制至少一个候选点分别在第一深度图中进行像素传播，得到第二传播深度图集合。接着，可以对第一深度图进行随机扰动，得到第一深度。最后，可以对第一深度和至少一个第二传播深度图对应的第二深度进行评估，选取评估结果满足深度条件的第二传播深度图作为第二深度图。

在一些实施例中，第二传播深度图集合即为传播候选集，包括至少一个第二传播深度图，第二传播深度图与候选点一一对应。

在一些实施例中，对第一深度图进行随机扰动时，得到扰动候选集。扰动候选集中可以包括至少一个扰动深度图，每个扰动深度图对应一个第二深度。

在一些实施例中，传播候选集和扰动候选集可以汇集成一个集合，即深度猜测集。

在一些实施例中，对第一深度和至少一个第二传播深度图对应的第二深度进行评估时，对第一深度和至少一个第二传播深度图对应的第二深度考察多视角一致性度量。该多视角一致性度量包括但不限于光度一致性度量、语义一致性度量、平滑性度量、结构相似性（Structural Similarity，SSIM）一致性度量，L1一致性度量，L2一致性度量等。

其中，光度一致性度量包括但不限于跨视角的光度一致性度量、基于双向归一化互相关（Normalized cross-correlation，NCC）的光度一致性度量等。语义一致性度量例如可以为基于前述语义表征的语义一致性度量。平滑性度量例如可以为参考视角内的平滑性度量。

例如，如图3所示，可以利用L1均值滤波来对深度猜测集中任一图像进行平滑性度量，得到第一度量值。同时，通过对源视角对应的图像与该图像进行特征一致性对比来进行块一致性度量，得到第二度量值。最后，将第一度量值与第二度量值相加得到第三度量值。接着，可以获取深度猜测集中每一个图像对应的第三度量值，选择第三度量值最小的图像作为第二深度图。

在一些实施例中，例如还可以采用导向滤波等其他深度图平滑方法进行图像匹配。

在一些实施例中，多种度量方法的组合可以充分利用前述语义表征提供的几何线索，并使得迭代早期在几何纹理丰富区域产生的可靠重建结果能够在后续迭代过程中被成功传播到非朗伯表面和无纹理区域，形成边缘锋利、面内平滑的深度图重建结果。

易于理解的是，当终端获取到第一深度图集合中任一第一深度图Di对应的候选点集合时，终端可以控制该候选点集合中至少一个候选点分别在第一深度图Di中进行像素传播，得到第二深度图。最终，获取到第一深度图集合中至少一个第一深度图对应的至少一个第二深度图，也就是第二深度图集合。

S206，对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。

根据一些实施例，当终端对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云时，可以对该至少一个视角对应的第二深度图进行光度一致性过滤和几何一致性过滤，并最终重建完整的场景点云，得到目标场景对应的目标场景点云。

综上，本公开实施例提供的方法，通过利用光场重建算法获取目标场景中至少一个视角对应的第一深度图、法向量图和置信度度量图；根据至少一个视角对应的第一深度图、法向量图和置信度度量图，确定目标场景对应的第一深度图集合；确定任一第一深度图对应的弹性语义表征；根据弹性语义表征、第一深度图对应的法向量图和置信度度量图，确定第一深度图对应的候选点集合；控制至少一个候选点分别在第一深度图中进行像素传播，得到第二深度图；对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。因此，通过充分结合传统匹配方法和深度学习方法各自的优点，采用通过弹性语义表征和场景几何进行迭代式的联合优化获取到的目标弹性语义重建模型对第一深度图集合进行重建，可以无需额外的深度监督信号作为训练数据，可以在保证重建精度的前提下重建出完整的表面，可以提高光场重建的准确性、完整性和质量，可以获取到高质量、高完整性、高精度的光场重建结果。同时，本公开实施例所提供的方法可以为AR/VR等应用提供有效的场景结构信息，包含但不限于基于此实现高效场景融合、渲染和压缩传输。

请参见图4，图4示出本公开实施例提供的第三种大场景弹性语义表征与自监督光场重建方法的流程示意图。该方法可以由终端执行。具体的，该大场景弹性语义表征与自监督光场重建方法包括：

S301，获取目标场景对应的第一深度图集合；

具体过程如上，此处不再赘述。

S302，获取初始弹性语义重建模型；

根据一些实施例，初始弹性语义重建模型指的是未经训练的弹性语义重建模型。该初始弹性语义重建模型并不特指某一固定模型。例如，当初始弹性语义重建模型对应的神经网络结构的类型发生变化时，该初始弹性语义重建模型可以发生变化。当初始弹性语义重建模型对应的模型参数发生变化时，该初始弹性语义重建模型也可以发生变化。

在一些实施例中，可以针对初始弹性语义重建模型使用不同的网络设计来对输出的多视角图像生成语义空间的表征。

易于理解的是，当终端进行大场景弹性语义表征与自监督光场重建时，终端可以获取初始弹性语义重建模型。

S303，将第一深度图集合输入至初始弹性语义重建模型，得到第三深度图集合；

根据一些实施例，第三深度图指的是初始弹性语义重建模型根据第一深度图生成的深度图。该第三深度图与第一深度图一一对应。

在一些实施例中，第三深度图集合指的是由至少一个视角对应的第三深度图汇聚而成的一个集合。

易于理解的是，当终端获取到第一深度图集合和初始弹性语义重建模型时，终端可以将第一深度图集合输入至初始弹性语义重建模型，得到第三深度图集合。

S304，若第三深度图集合满足模型迭代条件，则对初始弹性语义重建模型进行迭代训练，直至第三深度图集合不满足模型迭代条件，得到目标弹性语义重建模型，并确定不满足模型迭代条件的第三深度图集合为第二深度图集合；

根据一些实施例，模型迭代条件例如可以为第三深度图集合中任一第三深度图的精确度小于精确度阈值，或者第三深度图集合中任一第三深度图的置信度小于置信度阈值。

根据一些实施例，当对初始弹性语义重建模型进行迭代训练时，首先，可以确定第三深度图集合对应的对比损失函数和空间聚集损失函数。接着，可以根据对比损失函数和空间聚集损失函数，确定总体损失函数。最后，可以根据总体损失函数，对初始弹性语义重建模型进行反向传播训练。

在一些实施例中，为了从多视角图像和粗糙的几何初始化监督中得到可靠、紧凑的场景语义表征，可以利用“对比学习”的方式来进行弹性语义的学习，即利用对比损失函数对初始弹性语义重建模型进行训练。具体而言，对于图像中的每一个给定像素p，可以高斯采样一组点{q|q∈S_p}来作为考察点，定义q到p所在平面的距离和p到q所在平面的距离之和为二者的几何距离，当二者的几何距离小于阈值ϵ则定义p和q为正样本对，反之则定义为负样本对。

根据一些实施例，当终端确定第三深度图集合对应的对比损失函数时，终端可以确定至少一个视角对应的第三深度图中每一个像素对应的置信度，得到目标像素集合。接着，终端可以确定目标像素集合中所有目标像素对应的对比学习损失函数之和为对比损失函数。因此，可以将正样本对的表征在特征空间中聚集到一起，将负样本对的表征函数在特征空间中推远。从而，可以利用“对比学习”的方法，通过神经网络学习到逐像素的语义特征。这样得到的弹性语义表征具有尺度、形状可变性和边界保留的特点，可以为逐像素的多视角关联寻找提供可靠的引导，

在一些实施例中，目标像素集合包括至少一个目标像素，目标像素的置信度不小于置信度阈值。

在一些实施例中，该对比学习损失函数例如可以为InfoNCE损失函数。

根据一些实施例，当终端确定第三深度图集合对应的空间聚集损失函数时，可以对至少一个视角对应的第三深度图中每一个像素p进行高斯采样，得到每一个像素p对应的考察点集合S_p。接着，可以根据考察点集合S_p，确定空间聚集损失函数。

在一些实施例中，考察点集合S_p包括至少一个考察点q。

在一些实施例中，还可以通过除高斯采样之外的其他采样方法获取考察点集S_p。例如，均匀随机采样、重要性采样等。

在一些实施例中，根据考察点集合S_p，确定空间聚集损失函数时，可以在考察点集合S_p上定义空间聚集损失函数，因此，可以使得特征空间的距离和像素空间的距离具有正相关的关系，让语义表征的相似性呈现随距离各向同性衰减的特性。

根据一些实施例，根据对比损失函数和空间聚集损失函数，确定总体损失函数时，可以将对比损失函数和空间聚集损失函数的加权和作为总体损失函数，并利用反向传播来训练弹性语义表征。因此，可以使得可靠的语义表征能够在确保几何边界保留的情况下，从高置信度的区域向低置信度的区域传播。

在一些实施例中，还可以在对比损失函数和空间聚集损失函数的基础上增加其它的损失函数约束（例如平滑性损失函数等）来确定总体损失函数，以提高第三深度图集合获取的精度和准确性。

根据一些实施例，获取目标弹性语义重建模型时，可以使用测试数据集对该目标弹性语义重建模型进行训练和测试。测试结果表明，本公开实施例提供的方法可以在保留重建精确性的前提下有效地提升场景重建的完整性，在整体重建精度和视觉效果方面相对于相关技术均有明显的提升。

在一些实施例中，该测试数据集例如可以为Tanks & Temples数据集、DTU室内小场景数据集等。

在一些实施例中，在DTU室内小场景数据集下，本公开实施例提供的方法可以产生高完整度和高精度的光场场景重建结果。具体而言，可以选取DTU室内小场景数据集中的40个场景的数据进行测试，根据DTU的倒角距离（Chamfer distance，CD）标准，本公开实施例提供的方法在准确性（Accuracy）和整体（overall）指标上相比相关技术均表现最优，同时和相关技术表现出了可比拟的效果。

在一些实施例中，在Tanks & Temples数据集下，本公开实施例提供的方法可以在真实环境光照和多物体复杂场景下产生高精度和高完整性的光场重建结果。根据Tanks &Temples对于点云评估的F-score标准（小于2mm的比例），本公开实施例提供的方法可以在其intermediate和advanced数据集上相比相关技术取得最优结果，并大幅度超越相关技术中的其它算法。

易于理解的是，图5示出本公开实施例提供的一种模型联合优化的流程示意图。如图5所示，终端可以利用输入图像(第一深度图)及其对应的弹性语义表征进行块匹配与传播，得到相对粗糙的深度图(第三深度图)。相对粗糙的深度图可以进一步被网络用来学习更为精细的弹性语义表征，形成迭代式的联合优化过程。

S305，对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。

具体过程如上，此处不再赘述。

综上，本公开实施例提供的方法，通过获取目标场景对应的第一深度图集合；获取初始弹性语义重建模型；将第一深度图集合输入至初始弹性语义重建模型，得到第三深度图集合；若第三深度图集合满足模型迭代条件，则对初始弹性语义重建模型进行迭代训练，直至第三深度图集合不满足模型迭代条件，得到目标弹性语义重建模型，并确定不满足模型迭代条件的第三深度图集合为第二深度图集合；对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。因此，通过充分结合传统匹配方法和深度学习方法各自的优点，采用通过弹性语义表征和场景几何进行迭代式的联合优化获取到的目标弹性语义重建模型对第一深度图集合进行重建，可以无需额外的深度监督信号作为训练数据，可以在保证重建精度的前提下重建出完整的表面，可以提高光场重建的准确性、完整性和质量，可以获取到高质量、高完整性、高精度的光场重建结果。同时，本公开实施例所提供的方法可以为AR/VR等应用提供有效的场景结构信息，包含但不限于基于此实现高效场景融合、渲染和压缩传输。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

请参见图6，其示出本公开实施例提供的第一种大场景弹性语义表征与自监督光场重建装置的结构示意图。该大场景弹性语义表征与自监督光场重建装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该大场景弹性语义表征与自监督光场重建装置600包括集合获取单元601、集合生成单元602和深度图融合单元603，其中：

集合获取单元601，用于获取目标场景对应的第一深度图集合，其中，第一深度图集合包括至少一个视角对应的第一深度图；

集合生成单元602，用于将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合，其中，第二深度图集合包括至少一个视角对应的第二深度图；

深度图融合单元603，用于对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。

可选的，集合获取单元601用于获取目标场景对应的第一深度图集合时，具体用于：

利用光场重建算法获取目标场景中至少一个视角对应的第一深度图、法向量图和置信度度量图，其中，第一深度图、法向量图和置信度度量图一一对应；

根据至少一个视角对应的第一深度图、法向量图和置信度度量图，确定目标场景对应的第一深度图集合。

可选的，集合生成单元602用于将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合时，具体用于：

确定任一第一深度图对应的弹性语义表征；

根据弹性语义表征、第一深度图对应的法向量图和置信度度量图，确定第一深度图对应的候选点集合，候选点集合包括至少一个候选点；

控制至少一个候选点分别在第一深度图中进行像素传播，得到第二深度图。

可选的，集合生成单元602用于控制至少一个候选点分别在第一深度图中进行像素传播，得到第二深度图时，具体用于：

控制至少一个候选点分别在第一深度图中进行像素传播，得到第二传播深度图集合，其中，第二传播深度图集合包括至少一个第二传播深度图，第二传播深度图与候选点一一对应；

对第一深度图进行随机扰动，得到第一深度；

对第一深度和至少一个第二传播深度图对应的第二深度进行评估，选取评估结果满足深度条件的第二传播深度图作为第二深度图。

可选的，集合生成单元602用于对第一深度和至少一个第二传播深度图对应的第二深度进行评估时，具体用于：

对第一深度和至少一个第二传播深度图对应的第二深度进行跨视角的光度一致性度量、语义一致性度量和参考视角内的平滑性度量。

获取初始弹性语义重建模型；

将第一深度图集合输入至初始弹性语义重建模型，得到第三深度图集合；

若第三深度图集合满足模型迭代条件，则对初始弹性语义重建模型进行迭代训练，直至第三深度图集合不满足模型迭代条件，得到目标弹性语义重建模型，并确定不满足模型迭代条件的第三深度图集合为第二深度图集合。

可选的，集合生成单元602用于对初始弹性语义重建模型进行迭代训练时，具体用于：

确定第三深度图集合对应的对比损失函数和空间聚集损失函数；

根据对比损失函数和空间聚集损失函数，确定总体损失函数；

根据总体损失函数，对初始弹性语义重建模型进行反向传播训练。

可选的，第三深度图集合包括至少一个视角对应的第三深度图，集合生成单元602用于确定第三深度图集合对应的对比损失函数时，具体用于：

确定至少一个视角对应的第三深度图中每一个像素对应的置信度，得到目标像素集合，其中，目标像素集合包括至少一个目标像素，目标像素的置信度不小于置信度阈值；

确定目标像素集合中所有目标像素对应的对比学习损失函数之和为对比损失函数。

可选的，第三深度图集合包括至少一个视角对应的第三深度图，集合生成单元602用于确定第三深度图集合对应的空间聚集损失函数时，具体用于：

对至少一个视角对应的第三深度图中每一个像素进行高斯采样，得到每一个像素对应的考察点集合，其中，考察点集合包括至少一个考察点；

根据考察点集合，确定空间聚集损失函数。

需要说明的是，上述实施例提供的大场景弹性语义表征与自监督光场重建装置在执行大场景弹性语义表征与自监督光场重建方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的大场景弹性语义表征与自监督光场重建装置与大场景弹性语义表征与自监督光场重建方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

综上，本公开实施例提供的装置，通过集合获取单元获取目标场景对应的第一深度图集合，其中，第一深度图集合包括至少一个视角对应的第一深度图；集合生成单元将第一深度图集合输入至目标弹性语义重建模型，得到第二深度图集合，其中，第二深度图集合包括至少一个视角对应的第二深度图；深度图融合单元对至少一个视角对应的第二深度图进行融合，得到目标场景对应的目标场景点云。因此，通过采用通过弹性语义表征和场景几何进行迭代式的联合优化获取到的目标弹性语义重建模型对第一深度图集合进行重建，可以无需额外的深度监督信号作为训练数据，可以提高光场重建的准确性、完整性和质量，可以获取到高质量、高完整性、高精度的光场重建结果。

根据本公开的实施例，本公开还提供了一种终端、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例终端700的示意性框图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，终端700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储终端700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

终端700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许终端700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如大场景弹性语义表征与自监督光场重建方法。例如，在一些实施例中，大场景弹性语义表征与自监督光场重建方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到终端700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的大场景弹性语义表征与自监督光场重建方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行大场景弹性语义表征与自监督光场重建方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种大场景弹性语义表征与自监督光场重建方法，其特征在于，包括：

通过初始弹性语义重建模型获取与所述第一深度图集合对应的第三深度图集合，若所述第三深度图集合满足模型迭代条件，则通过弹性语义表征和场景几何的方式对所述初始弹性语义重建模型进行迭代式的联合优化训练，直至所述第三深度图集合不满足所述模型迭代条件，得到目标弹性语义重建模型，并将所述不满足所述模型迭代条件的第三深度图集合作为第二深度图集合，所述第二深度图集合包括至少一个视角对应的第二深度图，其中，在通过弹性语义表征和场景几何的方式对所述初始弹性语义重建模型进行迭代式的联合优化训练时，将物体表面联通区域的深度一致性和边界遮挡关系作为自监督信号，以监督神经网络进行逐像素语义特征的学习，并将学习得到的尺度、形状可变的弹性语义表征用于深度重建；

2.根据权利要求1所述的方法，其特征在于，所述获取目标场景对应的第一深度图集合，包括：

3.根据权利要求2所述的方法，其特征在于，通过下述步骤确定所述第二深度图集合，包括：

确定任一所述第一深度图对应的弹性语义表征；

控制所述至少一个候选点分别在所述第一深度图中进行像素传播，得到所述第二深度图集合。

4.根据权利要求3所述的方法，其特征在于，所述控制所述至少一个候选点分别在所述第一深度图中进行像素传播，得到所述第二深度图集合，包括：

对所述第一深度图进行随机扰动，得到第一深度；

5.根据权利要求4所述的方法，其特征在于，所述对所述第一深度和所述至少一个第二传播深度图对应的第二深度进行评估，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述初始弹性语义重建模型进行迭代训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述第三深度图集合包括至少一个视角对应的第三深度图，确定所述第三深度图集合对应的对比损失函数，包括：

8.根据权利要求6所述的方法，其特征在于，所述第三深度图集合包括至少一个视角对应的第三深度图，确定所述第三深度图集合对应的空间聚集损失函数，包括：

根据所述考察点集合，确定所述空间聚集损失函数。

9.一种大场景弹性语义表征与自监督光场重建装置，其特征在于，包括：

集合生成单元，用于通过初始弹性语义重建模型获取与所述第一深度图集合对应的第三深度图集合，若所述第三深度图集合满足模型迭代条件，则通过弹性语义表征和场景几何的方式对所述初始弹性语义重建模型进行迭代式的联合优化训练，直至所述第三深度图集合不满足所述模型迭代条件，得到目标弹性语义重建模型，并将所述不满足所述模型迭代条件的第三深度图集合作为第二深度图集合，所述第二深度图集合包括至少一个视角对应的第二深度图，其中，在通过弹性语义表征和场景几何的方式对所述初始弹性语义重建模型进行迭代式的联合优化训练时，将物体表面联通区域的深度一致性和边界遮挡关系作为自监督信号，以监督神经网络进行逐像素语义特征的学习，并将学习得到的尺度、形状可变的弹性语义表征用于深度重建；