CN112767468A

CN112767468A - 基于协同分割与数据增强的自监督三维重建方法及系统

Info

Publication number: CN112767468A
Application number: CN202110162782.9A
Authority: CN
Inventors: 许鸿斌; 周志鹏; 乔宇; 康文雄; 吴秋霞
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-07
Anticipated expiration: 2041-02-05
Also published as: CN112767468B; WO2022166412A1

Abstract

本发明提供了一种基于协同分割与数据增强的自监督三维重建方法及系统，方法包括：获取输入数据，根据输入数据获取多视角图像对；通过对多视角图像对进行深度估计处理，获取光度一致性损失；通过对多视角图像对进行协同分割处理，获取语义一致性损失；通过对多视角图像对进行数据增强处理，获取数据增强一致性损失；根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数；根据损失函数构建并训练神经网络模型，基于神经网络模型获取与输入数据对应的三维模型。本发明通过引入语义线索以及嵌入数据增强机制，增强了自监督信号在噪声扰动下的可靠性，提升了自监督算法的精度和性能，且成本低、泛化性高、应用场景广泛。

Description

基于协同分割与数据增强的自监督三维重建方法及系统

技术领域

本发明涉及图像处理领域，具体而言，涉及基于协同分割与数据增强的自监督三维重建方法及系统。

背景技术

基于多视图立体视觉(Multi-view stereo,MVS)的三维重建方法旨在通过预先给定的多个视角拍摄的自然图像和相机位置，还原出场景的三维结构。传统的三维重建方法虽然在通用场景下能够有效重建三维模型，但是由于传统的度量方法的局限性，很多时候传统三维重建算法只能重建出一个相对稀疏的点云，损失了相当多的细节。此外，还很容易受到噪声光照等等因素的干扰。

随着深度学习的快速发展，越来越多的研究者开始着手于将其应用在三维重建领域。借助于深度卷积神经网络(Convolutional neural network,CNN)的强大的特征提取能力，这些基于学习的方法将CNN提取的特征图通过单应性映射投影到同一个参考视角上，并构建在若干种深度下这些视角之间的匹配误差体(cost volume,CV)。匹配误差体会预测出在参考视角的深度图。每个视角下的深度图融合在一起便可以重建出整个场景的三维信息。这类基于数据驱动的三维重建方法，例如MVSNet、R-MVSNet、Point-MVSNet，取得了比传统三维重建方法更好的效果。

然而这些方法高度依赖于可用的大规模三维数据集，如果没有足够的有标签样本，便难以取得较好的效果。此外，对于三维重建来说，获取准确的真值样本标签较为困难且成本较高。由此，便衍生了一系列无/自监督的三维重建方法，旨在借助人为设计的自监督信号替代大量昂贵的真值标签来训练深度三维重建网络。

这些自监督方法三维重建流程中的深度估计问题转换为图像重建问题设计自监督信号。网络预测的深度图和多视角图像通过单应性映射投影到同一视角，且基于双线性插值计算像素值可以保证重建图像的可微分性质。随后自监督损失会估计重建图像与原图像的差异，训练网络直至收敛。Unsup_MVS根据视角间匹配特征的相关性排序并滤除了不可靠的自监督信号；MVS²在原始的图像重投影自监督信号的基础之上添加了自适应判断遮挡关系的模型；M³VSNet引入了法向量信息辅助自监督训练，取得了一定的性能提升。尽管目前的无/自监督三维重建技术取得了诸多进展，但是依然与有监督三维重建方法有一定的差距。

综上，尽管现有的无/自监督三维重建方法能取得一定的效果，但是与相同情况下的有监督三维重建的方法相比依然有较大的差距。这也导致无监督三维重建方法不够可靠。

因此，需要一种无/自监督三维重建方法，能够解决上述问题。

发明内容

基于现有技术存在的问题，本发明提供了基于协同分割与数据增强的自监督三维重建方法及系统。具体方案如下：

一种基于协同分割与数据增强的自监督三维重建方法，包括：

图像对获取：获取输入数据，根据所述输入数据获取具有重合区域且视角相似的多视角图像对；

深度估计处理：通过对所述多视角图像对进行深度估计处理，获取光度一致性损失；

协同分割处理：通过对所述多视角图像对进行协同分割处理，获取语义一致性损失；

数据增强处理：通过对所述多视角图像对进行数据增强处理，获取数据增强一致性损失；

构建损失函数：根据所述光度一致性损失、所述语义一致性损失和所述数据增强一致性损失构建损失函数；

模型输出：根据所述损失函数构建并训练神经网络模型，基于所述神经网络模型获取与所述输入数据对应的三维模型。

在一个具体的实施例中，所述协同分割处理具体包括：

协同分割图像获取：通过非负矩阵对所述多视角图像对进行协同分割，获取协同分割图像；

交叉熵损失获取：获取参考视角和非参考视角，将所述非参考视角上的协同分割图像进行重建得到重投影协同分割图像，并计算所述重投影协同分割图像与所述参考视角上的协同分割图像之间的交叉熵损失；

语义一致性损失获取：根据所述交叉熵损失获取语义一致性损失。

在一个具体的实施例中，所述深度估计处理具体包括：

基于深度估计网络对所述多视角图像进行深度估计，获取深度图像；

获取参考视角和非参考视角，将所述非参考视角上的深度图像进行重建得到重投影视图像，并根据所述重投影视图像计算回归损失；

根据所述回归损失获取光度一致性损失。

在一个具体的实施例中，所述数据增强处理具体包括：

采用不同的数据增强策略对所述多视角图像对进行数据增强；

以所述深度图像为伪标签对数据增强后的多视角图像对进行监督，获取不同所述数据增强策略下的数据损失；

根据所述数据损失获取数据增强一致性损失。

在一个具体的实施例中，所述图像对获取具体包括：

获取输入数据，所述输入数据包括图像或视频；

判断所述输入数据是否为图像：若是，则在所述输入数据中选取多视角图像；若否，则将所述输入数据转换为多视角图像；

在所述多视角图像中获取视角相似且具有相同区域的多视角图像对；

对所述多视角图像对进行图像预处理。

在一个具体的实施例中，所述“在所述多视角图像中获取视角相似且具有相同区域的多视角图像对”还包括：

通过二维尺度不变图像特征对所述多视角图像进行特征匹配，获取图像特征的匹配程度；

根据所述匹配程度计算图像之间的视角重合程度，并对所述视角重合程度进行排序，获取视角相似且具有相同区域的多视角图像对。

在一个具体的实施例中，所述协同分割图像获取具体包括：

通过卷积神经网络对所述多视角图像对中的每张图像进行特征提取，获取每个视角的特征图张量，所有视角的特征图张量构成特征图矩阵；

通过链式迭代式对所述特征图矩阵进行非负矩阵分解，求得第一非负矩阵和第二非负矩阵；

将所述第一非负矩阵转换为与图像维度对应的格式，获取协同分割图像。

在一个具体的实施例中，所述特征图矩阵的表达式为：

A∈R^V×H×W×C

所述第一非负矩阵和所述第二非负矩阵的表达式分别为：

P∈R^V×H×W×K，Q∈R^C×K

所述协同分割图像的表达式为：

S∈R^V×H×W×K

其中，A为所述特征图矩阵，S为所述协同分割图像，P为所述第一非负矩阵，Q为所述第二非负矩阵，V为总视角数，H和W为图像的高和宽，C为所述卷积神经网络中卷积层的通道数，K表示非负矩阵分解过程中的所述第一非负矩阵P的列数，也是所述第二非负矩阵Q的行数，R为实数。

在一个具体的实施例中，所述交叉熵损失获取具体包括：

在所有视角中选取一个参考视角，除所述参考视角以外的视角为非参考视角，获取所述参考视角下的协同分割图像和所述非参考视角下的协同分割图像；

根据单应性公式计算同一位置的像素分别在所述参考视角下与所述非参考视角下的对应关系；

基于单应性映射公式和双线性插值策略，将所述非参考视角下的协同分割图像投影到参考视角下进行重建，获得重投影协同分割图像；

计算所述重投影协同分割图像与所述参考视角下的协同分割图像之间的交叉熵损失。

在一个具体的实施例中，所述参考视角下的协同分割图像和所述非参考视角下的协同分割图像的表达式分别为：

S₁∈R^H×W×K，S_i∈R^H×W×K

其中，S₁为所述参考视角下的协同分割图像，S_i为所述非参考视角下的协同分割图像V为总视角数，H和W为图像的高和宽，K表示所述第一非负矩阵P的列数，也是所述第二非负矩阵Q的行数，i为非参考视角，2≤i≤V；

所述对应关系表达式为：

所述重投影协同分割图像

表达式为：

其中，p_j为像素在参考视角下的位置，

为像素在非参考视角下的位置，j表示图像中像素的索引值，D表示网络预测出的深度图，

为所述重投影协同分割图像。

在一个具体的实施例中，所述交叉熵损失表达式为：

f(S_1,j)＝onehot(ar gmax(S_1,j))

所述语义一致性误差表达式为：

其中，f(S_1,j)为所述交叉熵损失，L_SC为所述语义一致性误差，M_i表示的是从非参考视角单应性投影映射到参考视角的有效区域，N为自然数集，j表示图像中像素的索引值，H和W为图像的高和宽，

为所述重投影协同分割图像，S₁为所述参考视角下的协同分割图像，i为非参考视角。

在一个具体的实施例中，所述数据增强策略包括随机遮挡掩码、伽马校正、颜色扰动和随机噪声。

在一个具体的实施例中，所述数据增强一致性损失的表达式为：

其中，L_DA所述数据增强一致性损失，数据增强函数

为所述随机遮挡掩码，

为所述伽马校正，

为所述颜色扰动和随机噪声，

表示所述随机遮挡掩码

中的二进制非遮挡有效区域掩码，D为所述深度图。

一种基于协同分割与数据增强的自监督三维重建系统，包括：

输入单元，用于获取输入数据，根据所述输入数据获取具有重合区域且视角相似的多视角图像对；

深度处理单元，用于通过对所述多视角图像对进行深度估计处理，获取光度一致性损失，

双支处理单元，包括协同分割单元和数据增强单元，所述协同分割单元和所述数据增强单元并行运行，协同分割单元用于通过对所述多视角图像对进行协同分割处理，获取语义一致性损失；数据增强单元用于通过对所述多视角图像对进行数据增强处理，获取数据增强一致性损失；

损失函数构建单元，用于根据所述光度一致性损失、所述语义一致性损失和所述数据增强一致性损失构建损失函数；

输出单元，用于根据所述损失函数构建并训练神经网络模型，基于所述神经网络模型获取所述输入数据的三维模型。

在一个具体的实施例中，所述输入单元包括：

输入数据获取单元，用于获取输入数据，所述输入数据包括图像或视频；

转换单元，用于判断所述输入数据是否为图像：若是，则在所述输入数据中选取多视角图像；若否，则将所述输入数据转换为多视角图像；

筛选单元，用于根据所述多视角图像获取视角相似且具有相同区域的多视角图像对；

预处理单元，用于对所述多视角图像对进行图像预处理。

在一个具体的实施例中，所述协同分割单元包括：

分割图像获取单元，用于通过非负矩阵对所述多视角图像对进行协同分割，获取协同分割图像；

交叉熵损失获取单元，用于获取参考视角和非参考视角，通过单应性映射将所述非参考视角上的协同分割图像进行重建得到重投影协同分割图像，并计算所述重投影协同分割图像与所述参考视角上的协同分割图像之间的交叉熵损失；

语义损失获取单元，用于根据所述交叉熵损失获取语义一致性损失。

在一个具体的实施例中，所述深度处理单元包括：

深度图像获取单元，用于基于深度估计网络对所述多视角图像进行深度估计，获取深度图像；

回归损失获取单元，用于获取参考视角和非参考视角，通过单应性映射将所述非参考视角上的深度图像进行重建得到重投影视图像，并根据所述重投影视图像计算回归损失；

光度损失获取单元，用于根据所述回归损失获取光度一致性损失。

在一个具体的实施例中，所述数据增强单元包括：

数据处理单元，用于采用不同的数据增强策略对所述多视角图像对进行数据增强处理；

数据损失获取单元，用于以所述深度图像为伪标签对所述数据增强处理后的多视角损失图像对进行监督，获取不同所述数据增强策略下的数据损失；

数据一致性损失获取单元，用于根据所述数据损失获取数据增强一致性损失。

本发明具有如下有益效果：

本发明提供了基于协同分割与数据增强的自监督三维重建方法及系统。针对亮度一致性歧义问题，引入抽象的语义线索以及在自监督信号中嵌入数据增强机制，增强了自监督信号在噪声扰动下的可靠性。

本发明提出的自监督训练方法超越了传统的无监督方法，并能与一些领先的有监督方法取得相当的效果。

基于协同分割的语义一致性损失，动态地从多视图对中通过聚类挖掘出共有语义信息部件。

数据增强一致性损失将自监督的分支扩展为双流结构，使用标准分支的预测结果作为伪标签，监督数据增强分支的预测结果，将数据增强对比一致性与亮度一致性假设解缠，分别进行处理，实现在自监督信号中引入大量的数据增强扩充训练集中的变化。

整个流程无需任何标签数据，不依赖于真值标注，而是从数据本身挖掘出有效信息实现网络的训练，极大节约了成本，缩短了重建进程。

将深度预测、协同分割以及数据增强融合到一起，在解决了显存溢出问题地基础上，提升了自监督信号的精度，使本实施例具备更好的泛化性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例1的自监督三维重建方法流程图；

图2是本发明实施例1的输入数据处理流程图；

图3是本发明实施例1的深度估计处理流程图；

图4是本发明实施例1的深度估计处理原理图；

图5是本发明实施例1的协同分割处理流程图；

图6是本发明实施例1的协同分割处理原理图；

图7是本发明实施例1的数据增强处理流程图；

图8是本发明实施例1的数据增强处理原理图；

图9是本发明实施例1的实验检测结果图；

图10是本发明实施例1的一个三维重建结果图；

图11是本发明实施例1的另一个三维重建结果图；

图12是本发明实施例2的系统模块图；

图13是本发明实施例2的系统具体结构图。

附图标记：

1-输入单元；2-深度处理单元；3-双支处理单元；4-损失函数构建单元；5-输出单元；11-输入数据获取单元；12-转换单元；13-筛选单元；14-预处理单元；21-深度图像获取单元；22-回归损失获取单元；23-光度损失获取单元；31-协同分割单元；311-分割图像获取单元；312-交叉熵损失获取单元；313-语义损失获取单元；32-数据增强单元；321-数据处理单元；322-数据损失获取单元；323-数据一致性损失获取单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的自监督三维重建算法中往往都是直接将不同视角的图像通过预测的深度图投影到参考视角，如果深度图足够可靠那么重投影的重建图像应该与实际的参考视角的原图像尽可能相似。在这个过程中，默认整个场景都服从于亮度一致性假设(Colorconstancy hypothesis)，即：不同视角的匹配点具有相同的颜色。但是，在现实场景下，相机所拍摄的多视角图像不可避免地会存在各种干扰因素，如光照、噪声等等，导致不同视角的匹配点颜色分布有差异。然而在这种情况下，亮度一致性假设(Colorconstancyhypothesis)就不再有效，从而导致自监督信号本身就不再有效。最后，整个训练过程中，不可靠的自监督信号无法起到很好的监督作用，导致自监督方法训练出来的模型跟有监督方法相比不可避免地具有较大差异。这个问题被称为亮度一致性歧义问题。如果只进行常规训练，由于亮度一致性歧义，会导致模型在边缘区域模糊，且在很多区域都存在过平滑的问题。只有在数据量很大的情况下，或者相对比较理想的场景下，常规的自监督训练才可能不受到亮度一致性歧义问题的影响，并取得相当的效果。

亮度一致性歧义问题是无/自监督三维重建方法中的核心问题。因此，只有解决亮度一致性歧义问题，才可突破无/自监督三维重建方法的限制。

本发明针对亮度一致性歧义问题，提出了一种基于协同分割与数据增强的自监督三维重建方法及系统，通过引入抽象的语义线索以及在自监督信号中嵌入数据增强机制以增强自监督信号在噪声扰动下的可靠性，既能解决传统三维重建方法存在的细节损失、容易收到噪声光照干扰、过度依赖训练数据等问题，也能解决常规无/自监督三维重建方法的缺陷，超越了传统的无/自监督方法并能与一些高效的有监督方法取得相当的效果，且整个过程无需任何标注。

实验证明，本发明提供的自监督三维重建方法，在DTU数据集上超过了传统的无监督三维重建方法，并且能够实现与最先进的有监督方法相当的效果。此外，在不做任何微调的前提下，直接将本发明最终获取的无监督训练的模型应用在Tanks&Temples数据集上，也能超过传统的无监督方法。由于Tanks&Temples数据集本身包含了大量特殊的自然场景的光照变化，从侧面说明了本发明相比其他无监督方法具有较好的泛化性。

需要说明的是，本发明在采集样本数据时尽可能贴近真实场景下的光照效果，还原各类场景下的噪声干扰及颜色扰动，尽可能地模拟出各类自然场景，样本因此具有很强的代表性。而本发明能够适用于各种泛化的场景，相比于常规的自监督三维重建方法具有更强的针对性和更广的适用范围。

需要说明的是，本申请中的参考视图，包括深度估计处理、协同分割处理和数据增强处理所用的参考视图相同。一般来说，N个多视图中，每个视角都要构建一次多视角对，根据哪个视角构建多视角对，哪个视角就是参考视角。最后就会有N个多视角对。

实施例1

本实施例提出了一种基于协同分割与数据增强的自监督三维重建方法，如说明书附图1-11所示。流程步骤如说明书附图1，具体方案如下:

S1、获取输入数据，根据输入数据获取具有重合区域且视角相似的多视角图像对；

S2、通过对多视角图像对进行深度估计处理，获取光度一致性损失；

S3、通过对多视角图像对进行协同分割处理，获取语义一致性损失，通过对多视角图像对进行数据增强处理，获取数据增强一致性损失，协同分割处理和数据增强处理并行运行；

S4、根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数；

S5、根据损失函数构建并训练神经网络模型，基于神经网络模型获取输入数据的三维模型。

在本实施例中，步骤S1获取输入数据，根据输入数据获取具有重合区域且视角相似的多视角图像对。步骤S1流程如说明书附图2所示，具体包括：

S11、获取输入数据，输入数据包括图像或视频；

S12、判断输入数据是否为图像：若是，则在输入数据中选取多视角图像；若否，则将输入数据转换为多视角图像；

S13、根据多视角图像获取视角相似且具有相同区域的多视角图像对；

S14、对多视角图像对进行图像预处理。

具体地，原始多视角图像的数据采集，可以通过任意相机在各种不同视角下拍摄图像或是直接在相机移动过程中拍摄一段视频完成，本实施例的输入数据既可以是图像或视频，也可以是图像结合视频。如果是图像，仅需要从输入数据中提取多视角图像，从多视角图像中筛选出视角相似且具有相同区域的多视角图像对，最后通过基本的图像预处理如图像滤波等技术增强图像质量即可；如果是视频，则需要先将视频转换成多视角图像，从多视角图像中筛选出视角相似且具有相同区域的多视角图像对，再进行图像预处理。

特别地，步骤S13选取多视角图像对具体包括：通过二维尺度不变图像特征对所述多视角图像进行特征匹配，获取像素点的匹配信息和图像特征的匹配程度；

根据所述匹配信息获取相机外参矩阵，根据所述匹配程度计算图像之间的视角重合程度，并对所述视角重合程度进行排序，获取与每个视角接近的其它视角。

具体地，在获取多视角图像对之后，通过SIFT、ORB、SURF等二维尺度不变图像特征对所有多视角图像对两两之间进行特征匹配。依靠二维的图像像素点匹配信息，求解所有相机之间的光束法平差问题，计算得到不同相机之间的相对位姿关系，即相机外参矩阵。此外，根据图像特征子的匹配程度计算两两成对的所有图像对之间的视角重合程度。依照重合程度进行排序，得到针对每个视角而言剩余所有视角中与该视角最接近的前10个视角。由此可以将N个视角的多视图划分为N组多视角图像对，用于后续的立体视觉匹配过程。

在本实施例中，多视角图像对一般包括3-7张多视角图像，选取视角相似且具有重合区域的多视角图像对可方便后续的特征匹配。需要说明的是，如果视角差异过大，重合区域过小，后续流程找匹配点时有效区域会非常小，影响流程的进行。

在本实施例中，S2通过对多视角图像对进行深度估计处理，获取光度一致性损失，具体流程如说明书附图3所示，包括：

S21、基于深度估计网络对多视角图像进行深度估计，获取深度图像；

S22、获取参考视角和非参考视角，通过单应性映射将非参考视角上的深度图像进行重建得到重投影视图像，并根据重投影视图像计算回归损失；

S23、根据回归损失获取光度一致性损失。

深度估计处理是现有三维重建方法中常用的技术手段。具体流程包括：将多视角图像对和参考视图输入到深度估计网络进行深度估计，可获得深度图，将深度图和多视角图像对进行单应性映射，对非参考视角上的深度图像进行重建得到重投影视图像，通过计算重投影视图和参考视图之间的差异可获取回归损失，即L2损失，基于L2损失获取光度一致性误差。具体原理如说明书附图4所示。

在本实施例中，S3通过对多视角图像对进行协同分割处理，获取语义一致性损失，通过对多视角图像对进行数据增强处理，获取数据增强一致性损失，协同分割处理和数据增强处理并行运行。步骤S3是本实施例的核心步骤，通过协同分割处理和数据增强处理两个分支并行运行，获取语义一致性损失和数据增强一致性损失。

其中，基于协同分割的语义一致性损失，动态地从多视图对中通过聚类挖掘出共有语义信息部件，无需真值标签，可以泛化到任意场景，对场景内多视图的共有信息进行无监督聚类，不需要依靠人为定义的语义类别。而现有的基于语义一致性的方案往往都需要通过大量的人工标注来获得语义标注，成本非常高；此外这些方法还受限与特定的场景，和特定的人为定义的语义类别，无法适用于任意场景。协同分割处理具体流程如说明书附图5所示，包括：

S311、通过非负矩阵对多视角图像对进行协同分割，获取协同分割图像；

S312、获取参考视角和非参考视角，通过单应性映射将非参考视角上的协同分割图像进行重建得到重投影协同分割图像，并计算重投影协同分割图像与参考视角上的协同分割图像之间的交叉熵损失；

S313、根据交叉熵损失获取语义一致性损失。

协同分割处理流程包括：将参考视图和多视角图像对输入到预训练的VGG网络，接着进行非负矩阵分解，获取参考视角下的协同分割图像和非参考视角下的协同分割图像，对非参考视角下的协同分割图像进行单应性投影获取重投影协同分割图像，计算重投影协同分割图像与参考视角下的协同分割图像之间的交叉熵损失，进而获取语义一致性误差。具体流程如说明书附图6所示。

在本实施例中，协同分割处理与步骤S2的深度估计处理类似。将参考视图和多视角图像对输入到预训练的卷积神经网络。特别地，多视角图像对中的每张图像都会被送入一个共享权重的卷积神经网络提取特征，优选地，卷积神经网络选用ImageNet预训练的VGG网络。由此，每个视角的图像都会得到一个对应的特征图张量，特征图张量的维度是H×W×C，其中，H和W为图像的高和宽，C为卷积神经网络中卷积层的通道数。所有视角的特征图张量被展开并凭借到一起构成一个二维矩阵，即特征图矩阵A∈R^V×H×W×C，其维度是V×H×W×C，其中V是总视角数。通过链式迭代式对所述特征图矩阵进行非负矩阵分解，求得第一非负矩阵P和第二非负矩阵Q。第一非负矩阵P和所述第二非负矩阵Q的表达式分别为：

P∈R^V×H×W×K，Q∈R^C×K

K表示非负矩阵分解过程中的P矩阵的列数，也是Q矩阵的行数。由于非负矩阵的正交约束假设，要求其中的Q矩阵必须为满足以下条件：QQ^T＝I，其中，I为单位矩阵。由于正交约束的限制，Q矩阵的每行向量都需要同时包含可能多的A矩阵的信息，且保持尽可能地不重合。换句话说，Q矩阵的每行向量可以近似地看做聚类的簇中心，而非负矩阵分解求解的过程也可以看做聚类的过程。相应地，P矩阵表示的就是所有多视角图像的每个像素针对语义上的聚类簇中心(Q矩阵每行的向量)的相关程度，即分割置信度。由此实现不依靠任何监督信号实现多视角图像的协同分割，提取得到多视角图像的共有语义信息。非负矩阵分解实现协同分割提取共有语义信息示意图如说明书附图所示。

将第一非负矩阵转换为与图像维度对应的格式，获取协同分割图像。协同分割图像S的表达式为：

S∈R^V×H×W×K

其中，V为总视角数，H和W为图像的高和宽，也是第二非负矩阵Q的行数，R为实数。

需要说明的是，在协同分割分支中，为了兼顾计算量和效率，只是采用了一个较为简单的传统方案进行协同分割任务。但是在协同分割领域其实还存在较多的替代方案，本实施例可以通过其他的聚类算法来做协同分割任务，实现相当的效果。

特别地，在非负矩阵分解实现时，由于方法本身存在缺陷，在处理真实场景的多视图经常求解失败。而这一问题很大程度是因为迭代式求解的过程高度依赖于随机初始化状态值，一旦没有碰到较好的初始值，整个非负矩阵分解的求解无法收敛，协同分割也会失败，最后导致整个训练过程无法进行。本实施例将原始的迭代式求解过程扩展为了多分支并行求解的过程，每次随机初始化多组解，从中选取最优的再送入下次迭代过程中。很大程度上回避了由于随机初始化值不好而导致求解失败的问题。

此外，由于语义分割任务的特殊性，往往需要限定特定的场景和可能的语义类别。而本实施例只需要挖掘不同视图中的共有语义部件(聚类簇)，不再需要关心特定的场景和语义标签。因此，本实施例提供的方法可以泛化到任意动态变化的场景，而不需要像其他方法一样需要大量繁琐昂贵的语义标注工作。

在本实施例中，S312具体包括：将V个视图划分为一个参考视角与一系列非参考视角组成的视角对，参考视角下的协同分割图像S₁和非参考视角下的协同分割图像S_i的表达式分别为：

S₁∈R^H×W×K，S_i∈R^H×W×K

默认序号为1的视角为参考视角，而序号为i的视角定义为非参考视角，其中，2≤i≤V。根据相机内参和外参矩阵$(K,T)$，由单应性公式可以计算参考视角下位置为p_j的像素与源视角中位置为

的像素的对应关系：

其中，p_j为像素在参考视角下的位置，

为像素在非参考视角下的位置，j表示图像或分割图中像素的索引值，且1≤j≤H×W，D表示网络预测出的深度图。

接着，根据单应性映射公式和双线性插值策略，非参考视角下的协同分割图像S_i可以投影到参考视角下重投影协同分割图像

表达式为：

通过计算重投影协同分割图像

与参考视角下的协同分割图像的差异，可以得到交叉熵损失f(S_1,j)，f(S_1,j)的表达式为：

f(S_1,j)＝omehot(ar gmax(S_1,j))

根据交叉熵损失获取语义一致性误差，语义一致性误差L_SC，i表达式为：

其中，M_i表示的是从参考视角单应性投影映射到参考视角的有效区域。

对所有视角对间都计算重建语义分割图与原始语义分割图的交叉熵损失。如果预测的深度图是正确的，那么根据其重建的语义分割图也应该与原始语义分割图尽可能相似。整个语义一致性损失的计算公式如下：

其中，f(S_1,j)为交叉熵损失，L_SC为语义一致性误差，M_i表示的是从非参考视角单应性投影映射到参考视角的有效区域，N为自然数集，j表示图像中像素的索引值，H和W为图像的高和宽，

为重投影协同分割图像，S₁为参考视角下的协同分割图像，i为非参考视角。

在本实施例中，训练时语义一致性损失的权重默认设置为0.1。

由于数据增强操作本身会导致多视角图像的像素值发生变化，因此直接应用数据增强策略可能会破坏自监督信号的亮度一致性假设。不同于有监督方法的真值标签，自监督信号来自于数据本身，更容易受到数据本身的噪声干扰。为了使数据增强策略引入自监督训练框架，将原始的自监督训练分支拓展为双流结构，一个标准分支仅有光度立体视觉自监督信号监督，而另一个分支则引入各种随机数据增强变化。

其中，数据增强一致性损失将自监督的分支扩展为双流结构，使用标准分支的预测结果作为伪标签，监督数据增强分支的预测结果，将数据增强对比一致性与亮度一致性假设解缠，分别进行处理，实现在自监督信号中引入大量的数据增强扩充训练集中的变化。而现有的基于光度立体一致性的自监督信号往往受限于亮度一致性假设，不允许数据增强操作。因为数据增强会改变图像的像素分布，导致亮度一致性假设受到破坏，反过来导致亮度一致性歧义，使得自监督信号不够可靠。数据增强处理具体流程如说明书附图7所示，包括：

S321、采用不同的数据增强策略对多视角图像对进行数据增强处理；

S322、以深度图像为伪标签对数据增强处理后的多视角损失图像对进行监督，获取不同数据增强策略下的数据损失；

S323、根据数据损失获取数据增强一致性损失。

数据增强处理具体流程包括：将参考视图和多视角图像对输入到深度估计网络进行深度估计处理，获取深度图，根据深度图获取有效区域掩码，将有效区域掩码作为伪标签。对参考视图和多视角图像对进行随机数据增强后输入到深度估计网络进行深度估计处理获取对比深度图，计算对比深度图和伪标签之间的差异，进而获取数据增强一致性损失。数据增强处理原理如说明书附图8所示。

在本实施例中，数据增强策略包括随机遮挡掩码、伽马校正、颜色扰动和随机噪声。原始的多视图为I，而作用在多视角图像对上的数据增强函数为τ_θ，数据增强后的多视图为

θ表示数据增强过程中与具体操作相关的参数。受限于多视角几何的视角约束，不能改变像素位置的分布，否则可能破坏标定相机之间的对应关系。所采用的数据增强分别为：随机遮挡掩码

伽马校正

颜色扰动和随机噪声

随机遮挡掩码

为模仿多视角下的前景遮挡情景，可以随机生成一个二进制掩码遮挡掩码

参考视角下的一部分区域，而

表示剩下的在预测中有效的区域。而

所包含的区域对于遮挡变化应当保持不变性，所以整个系统应该在这种人为制造的遮挡边缘上保持不变性，由此便可以引导模型更多地关注遮挡边缘的处理。

伽马校正

伽马校正是一个常见的被用来调整图像光照的数据增强操作。为了模拟尽可能多且复杂的光照变化情况，引入了随机伽马校正来进行数据增强。

颜色扰动和随机噪声

由于亮度一致性歧义问题的存在，任何颜色扰动都会改变图像的像素分布，破坏基于立体视觉的自监督损失的有效性。因此自监督损失难以在存在颜色扰动的情况下保持鲁棒性。通过随机对图像的RGB像素值进行扰动，并添加上随机高斯噪声等等，以辅助数据增强并模拟尽可能多的扰动变化。

需要说明的是，本实施例在数据增强分支中，只使用了三种数据增强策略，并没有枚举所有数据增强策略的组合并拼凑出最优的数据增强组合。作为替代方案，可使用一些特殊的自适应数据增强方案。

其中，S322以深度图像为伪标签对数据增强处理后的多视角图像对进行监督，获取不同数据增强策略下的数据损失。数据增强策略需要保证有一个相对可靠的参考标准，在有监督训练中这个参考标准往往是随机数据增强针对真值标签的不变性，而在自监督训练中这个假设却无法成立，因为无法获得真值标签。因此，本实施例以标准自监督训练的分支预测的深度图作为伪真值标签，即步骤S2中的深度估计处理中的深度图，要求随机数据增强后的预测结果尽可能保证针对伪标签的不变性。这一操作可以将数据增强与自监督损失解耦，而不会影响到自监督损失的亮度一致性假设。

步骤S321中的几个数据增强策略组合起来可以得到综合的数据增强函数：

标准自监督分支预测(深度估计处理)的深度图为D，数据增强分支预测的深度图为

计算数据增强一致性损失，数据增强一致性损失L_DA的表达式为：

其中，

为随机遮挡掩码，

为伽马校正，

为染色绕道和随机噪声，

表示随机遮挡掩码

中的二进制非遮挡有效区域掩码，

与

为点乘，D为网络预测出的深度图。

在训练过程中，每次都对每张图像采用不同的随机数据增强策略，随后利用上述公式计算损失L_DA。另外，由于数据增强损失要求整体的训练过程已经收敛，因此在训练前期的数据增强损失如果权重过大，可能导致自监督训练无法收敛。为此，根据训练进度自适应地调整数据增强损失的影响权重。在起始阶段权重为0.01，随后每经过两个epoch权重翻倍一次。在网络收敛后，数据增强损失才起到实质作用。

特别地，由于整个自监督训练框架使用了较多操作，特别是数据增强分支把整个网络跑了两次前向。一般来说，如果直接使用并行的前向-反向更新策略，训练过程中的GPU显存是不够的(默认11G)，存在现存溢出问题。本实施例针对显存溢出问题，采用了用时间换空间的策略。将原始的一次前向-计算自监督损失-反向传播的流程切分为两组前向反向传播的过程。先前向计算标准分支的自监督损失，然后反向传播更新梯度，清除缓存，并保存标准分支预测的深度图结果作为伪标签；随后前向计算数据增强分支的自监督损失，在利用伪标签监督其训练。由于多个损失的梯度更新被解耦到不同阶段，不需要同时占用显存，很大程度上减少了GPU的显存占用。

在本实施例中，S4根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数。损失函数L的表达式为：

L＝L_PC+L_DA+L_SC

其中，L_PC为光度一致性损失，L_DA为数据增强一致性损失，L_SC为语义一致性损失。

本实施例将传统的立体匹配替换成了基于深度学习的稠密深度图估计，根据损失函数构建并训练出一个神经网络模型，将该神经网络模型应用到完整的三维重建中，得到三维模型，效果可以与人工标注样本的方法相当。本实施例提供了一个低成本训练高精度三维重建模型的替代方案，可以拓展到地图勘探、自动驾驶、AR/VR等与三维重建相关的场景。

基于DTU数据集对本实施例提出的方法进行检测，实验检测结果如说明书附图9所示。其中，本发明实施例提出的DACS-MS在DTU数据集上平均每个点的重建误差为0.358mm，远小于同类无监督方法如MVS、MVS²、M³VSNet。与有监督方法相比，DACS-MS也接近现有技术中最先进的有监督方法，超越部分现有的有监督方法。实验结果表面，本实施提出的自监督方法在DTU数据集上超过了传统的无监督三维重建方法，并且能够实现与最先进的有监督方法相当的效果。利用本实施例提供的基于协同分割与数据增强的自监督三维重建方法重建出的模型效果如说明书附图10和说明书附图11所示。本实施例的实验结果为附图第三列所示，由具体的实验结果表面，本实施例完全能够实现与有监督方法相同或相近的技术效果，重建出的三维模型符合技术要求。

本实施例提供了基于协同分割与数据增强的自监督三维重建方法，针对亮度一致性歧义问题，引入抽象的语义线索以及在自监督信号中嵌入数据增强机制，增强了自监督信号在噪声扰动下的可靠性。本实施例提出的自监督训练方法超越了传统的无监督方法，并能与一些领先的有监督方法取得相当的效果。基于协同分割的语义一致性损失，动态地从多视图对中通过聚类挖掘出共有语义信息部件。数据增强一致性损失将自监督的分支扩展为双流结构，使用标准分支的预测结果作为伪标签，监督数据增强分支的预测结果，将数据增强对比一致性与亮度一致性假设解缠，分别进行处理，实现在自监督信号中引入大量的数据增强扩充训练集中的变化。整个流程无需任何标签数据，不依赖于真值标注，而是从数据本身挖掘出有效信息实现网络的训练，极大节约了成本，缩短了重建进程。将深度预测、协同分割以及数据增强融合到一起，在解决了显存溢出问题地基础上，提升了自监督信号的精度，使本实施例具备更好的泛化性。

实施例2

本实施例在实施例1的基础上，将实施例1提出的一种基于协同分割与数据增强的自监督三维重建方法模块化，形成一种基于协同分割与数据增强的自监督三维重建系统，各模块示意图如说明书附图12所示，完整的系统结构图如说明书附图13所示。

一种基于协同分割与数据增强的自监督三维重建系统，包括依次连接的输入单元1、深度处理单元2、双支处理单元3、损失函数构建单元4和输出单元5。

输入单元1，用于获取输入数据，根据输入数据获取具有重合区域且视角相似的多视角图像对。输入单元包括输入数据获取单元11、转换单元12、筛选单元13和预处理单元14。

深度处理单元2，用于通过对多视角图像对进行深度估计处理，获取光度一致性损失。深度处理单元包括深度图像获取单元21、回归损失获取单元22和光度损失获取单元23。

双支处理单元3，包括协同分割单元31和数据增强单元32，协同分割单元31和数据增强单元32并行运行，协同分割单元31用于通过对多视角图像对进行协同分割处理，获取语义一致性损失。数据增强单元32用于通过对多视角图像对进行数据增强处理，获取数据增强一致性损失。

损失函数构建单元4，用于根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数。

输出单元5，用于根据损失函数构建并训练神经网络模型，基于神经网络模型获取输入数据的三维模型。

其中，深度处理单元2包括深度图像获取单元21、回归损失获取单元22和光度损失获取单元23。基本原理包括：将多视角图像对和参考视图输入到深度估计网络进行深度估计，可获得深度图，将深度图和多视角图像对进行单应性映射，对非参考视角上的深度图像进行重建得到重投影视图像，通过计算重投影视图和参考视图之间的差异可获取回归损失，基于回归损失获取光度一致性误差。具体结构包括：

深度图像获取单元21，用于通过深度估计网络对多视角图像进行深度估计，获取深度图像。

回归损失获取单元22，用于获取参考视角和非参考视角，通过单应性映射将非参考视角上的深度图像进行重建得到重投影视图像，并根据重投影视图像计算回归损失。

光度损失获取单元23，用于根据回归损失获取光度一致性损失。

其中，协同分割单元31包括分割图像获取单元311、交叉熵损失获取单元312和语义损失获取单元313。协同分割单元31的基本原理包括：将参考视图和多视角图像对输入到预训练的VGG网络，接着进行非负矩阵分解，获取参考视角下的协同分割图像和非参考视角下的协同分割图像，对非参考视角下的协同分割图像进行单应性投影获取重投影协同分割图像，计算重投影协同分割图像与参考视角下的协同分割图像之间的交叉熵损失，进而获取语义一致性误差。具体结构包括：

分割图像获取单元311，用于通过非负矩阵对多视角图像对进行协同分割，获取协同分割图像。

交叉熵损失获取单元312，用于获取参考视角和非参考视角，通过单应性映射将非参考视角上的协同分割图像进行重建得到重投影协同分割图像，并计算重投影协同分割图像与参考视角上的协同分割图像之间的交叉熵损失。

语义损失获取单元313，用于根据交叉熵损失获取语义一致性损失。

其中，数据增强单元32包括数据处理单元321、数据损失获取单元322和数据一致性损失获取单元323。数据增强单元32的基本原理包括：将参考视图和多视角图像对输入到深度处理单元进行深度估计处理，获取深度图，根据深度图获取有效区域掩码，将有效区域掩码作为伪标签。对参考视图和多视角图像对进行随机数据增强后输入搭配深度估计网络进行深度估计处理获取对比深度图，计算对比深度图和伪标签之间的差异，进而获取数据增强一致性损失。具体结构包括：

数据处理单元321，用于采用不同的数据增强策略对多视角图像对进行数据增强处理。数据处理单元设置有深度估计网络。

数据损失获取单元322，用于以深度图像为伪标签对数据增强处理后的多视角损失图像对进行监督，获取不同数据增强策略下的数据损失。

数据一致性损失获取单元323，用于根据数据损失获取数据增强一致性损失。

其中，输入单元1包括输入数据获取单元11、转换单元12、筛选单元13和预处理单元14。具体结构包括：

输入数据获取单元11，用于获取输入数据，输入数据包括图像或视频。

转换单元12，用于判断输入数据是否为图像：若是，则在输入数据中选取多视角图像。若否，则将输入数据转换为多视角图像。

筛选单元13，用于根据多视角图像获取视角相似且具有相同区域的多视角图像对。

预处理单元14，用于对多视角图像对进行图像预处理。

本实施例在实施例1的基础上，提出了一种基于深度学习的样本图像生成系统，将实施例1的方法模块化，形成一种具体的系统，使其更具备实用性。

本发明针对现有技术，提供了基于协同分割与数据增强的自监督三维重建方法及系统。针对亮度一致性歧义问题，引入抽象的语义线索以及在自监督信号中嵌入数据增强机制，增强了自监督信号在噪声扰动下的可靠性。本发明提出的自监督训练方法超越了传统的无监督方法，并能与一些领先的有监督方法取得相当的效果。基于协同分割的语义一致性损失，动态地从多视图对中通过聚类挖掘出共有语义信息部件。数据增强一致性损失将自监督的分支扩展为双流结构，使用标准分支的预测结果作为伪标签，监督数据增强分支的预测结果，将数据增强对比一致性与亮度一致性假设解缠，分别进行处理，实现在自监督信号中引入大量的数据增强扩充训练集中的变化。整个流程无需任何标签数据，不依赖于真值标注，而是从数据本身挖掘出有效信息实现网络的训练，极大节约了成本，缩短了重建进程。将深度预测、协同分割以及数据增强融合到一起，在解决了显存溢出问题地基础上，提升了自监督信号的精度，使本实施例具备更好的泛化性。将方法模块化，形成一种具体的系统，使其更具备实用性。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。