CN112767468A - 基于协同分割与数据增强的自监督三维重建方法及系统 - Google Patents

基于协同分割与数据增强的自监督三维重建方法及系统 Download PDF

Info

Publication number
CN112767468A
CN112767468A CN202110162782.9A CN202110162782A CN112767468A CN 112767468 A CN112767468 A CN 112767468A CN 202110162782 A CN202110162782 A CN 202110162782A CN 112767468 A CN112767468 A CN 112767468A
Authority
CN
China
Prior art keywords
image
loss
view
data
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110162782.9A
Other languages
English (en)
Other versions
CN112767468B (zh
Inventor
许鸿斌
周志鹏
乔宇
康文雄
吴秋霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202110162782.9A priority Critical patent/CN112767468B/zh
Publication of CN112767468A publication Critical patent/CN112767468A/zh
Priority to PCT/CN2021/137980 priority patent/WO2022166412A1/zh
Application granted granted Critical
Publication of CN112767468B publication Critical patent/CN112767468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06T7/596Depth or shape recovery from multiple images from stereo images from three or more stereo images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于协同分割与数据增强的自监督三维重建方法及系统,方法包括:获取输入数据,根据输入数据获取多视角图像对;通过对多视角图像对进行深度估计处理,获取光度一致性损失;通过对多视角图像对进行协同分割处理,获取语义一致性损失;通过对多视角图像对进行数据增强处理,获取数据增强一致性损失;根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数;根据损失函数构建并训练神经网络模型,基于神经网络模型获取与输入数据对应的三维模型。本发明通过引入语义线索以及嵌入数据增强机制,增强了自监督信号在噪声扰动下的可靠性,提升了自监督算法的精度和性能,且成本低、泛化性高、应用场景广泛。

Description

基于协同分割与数据增强的自监督三维重建方法及系统
技术领域
本发明涉及图像处理领域,具体而言,涉及基于协同分割与数据增强的自监督三维重建方法及系统。
背景技术
基于多视图立体视觉(Multi-view stereo,MVS)的三维重建方法旨在通过预先给定的多个视角拍摄的自然图像和相机位置,还原出场景的三维结构。传统的三维重建方法虽然在通用场景下能够有效重建三维模型,但是由于传统的度量方法的局限性,很多时候传统三维重建算法只能重建出一个相对稀疏的点云,损失了相当多的细节。此外,还很容易受到噪声光照等等因素的干扰。
随着深度学习的快速发展,越来越多的研究者开始着手于将其应用在三维重建领域。借助于深度卷积神经网络(Convolutional neural network,CNN)的强大的特征提取能力,这些基于学习的方法将CNN提取的特征图通过单应性映射投影到同一个参考视角上,并构建在若干种深度下这些视角之间的匹配误差体(cost volume,CV)。匹配误差体会预测出在参考视角的深度图。每个视角下的深度图融合在一起便可以重建出整个场景的三维信息。这类基于数据驱动的三维重建方法,例如MVSNet、R-MVSNet、Point-MVSNet,取得了比传统三维重建方法更好的效果。
然而这些方法高度依赖于可用的大规模三维数据集,如果没有足够的有标签样本,便难以取得较好的效果。此外,对于三维重建来说,获取准确的真值样本标签较为困难且成本较高。由此,便衍生了一系列无/自监督的三维重建方法,旨在借助人为设计的自监督信号替代大量昂贵的真值标签来训练深度三维重建网络。
这些自监督方法三维重建流程中的深度估计问题转换为图像重建问题设计自监督信号。网络预测的深度图和多视角图像通过单应性映射投影到同一视角,且基于双线性插值计算像素值可以保证重建图像的可微分性质。随后自监督损失会估计重建图像与原图像的差异,训练网络直至收敛。Unsup_MVS根据视角间匹配特征的相关性排序并滤除了不可靠的自监督信号;MVS2在原始的图像重投影自监督信号的基础之上添加了自适应判断遮挡关系的模型;M3VSNet引入了法向量信息辅助自监督训练,取得了一定的性能提升。尽管目前的无/自监督三维重建技术取得了诸多进展,但是依然与有监督三维重建方法有一定的差距。
综上,尽管现有的无/自监督三维重建方法能取得一定的效果,但是与相同情况下的有监督三维重建的方法相比依然有较大的差距。这也导致无监督三维重建方法不够可靠。
因此,需要一种无/自监督三维重建方法,能够解决上述问题。
发明内容
基于现有技术存在的问题,本发明提供了基于协同分割与数据增强的自监督三维重建方法及系统。具体方案如下:
一种基于协同分割与数据增强的自监督三维重建方法,包括:
图像对获取:获取输入数据,根据所述输入数据获取具有重合区域且视角相似的多视角图像对;
深度估计处理:通过对所述多视角图像对进行深度估计处理,获取光度一致性损失;
协同分割处理:通过对所述多视角图像对进行协同分割处理,获取语义一致性损失;
数据增强处理:通过对所述多视角图像对进行数据增强处理,获取数据增强一致性损失;
构建损失函数:根据所述光度一致性损失、所述语义一致性损失和所述数据增强一致性损失构建损失函数;
模型输出:根据所述损失函数构建并训练神经网络模型,基于所述神经网络模型获取与所述输入数据对应的三维模型。
在一个具体的实施例中,所述协同分割处理具体包括:
协同分割图像获取:通过非负矩阵对所述多视角图像对进行协同分割,获取协同分割图像;
交叉熵损失获取:获取参考视角和非参考视角,将所述非参考视角上的协同分割图像进行重建得到重投影协同分割图像,并计算所述重投影协同分割图像与所述参考视角上的协同分割图像之间的交叉熵损失;
语义一致性损失获取:根据所述交叉熵损失获取语义一致性损失。
在一个具体的实施例中,所述深度估计处理具体包括:
基于深度估计网络对所述多视角图像进行深度估计,获取深度图像;
获取参考视角和非参考视角,将所述非参考视角上的深度图像进行重建得到重投影视图像,并根据所述重投影视图像计算回归损失;
根据所述回归损失获取光度一致性损失。
在一个具体的实施例中,所述数据增强处理具体包括:
采用不同的数据增强策略对所述多视角图像对进行数据增强;
以所述深度图像为伪标签对数据增强后的多视角图像对进行监督,获取不同所述数据增强策略下的数据损失;
根据所述数据损失获取数据增强一致性损失。
在一个具体的实施例中,所述图像对获取具体包括:
获取输入数据,所述输入数据包括图像或视频;
判断所述输入数据是否为图像:若是,则在所述输入数据中选取多视角图像;若否,则将所述输入数据转换为多视角图像;
在所述多视角图像中获取视角相似且具有相同区域的多视角图像对;
对所述多视角图像对进行图像预处理。
在一个具体的实施例中,所述“在所述多视角图像中获取视角相似且具有相同区域的多视角图像对”还包括:
通过二维尺度不变图像特征对所述多视角图像进行特征匹配,获取图像特征的匹配程度;
根据所述匹配程度计算图像之间的视角重合程度,并对所述视角重合程度进行排序,获取视角相似且具有相同区域的多视角图像对。
在一个具体的实施例中,所述协同分割图像获取具体包括:
通过卷积神经网络对所述多视角图像对中的每张图像进行特征提取,获取每个视角的特征图张量,所有视角的特征图张量构成特征图矩阵;
通过链式迭代式对所述特征图矩阵进行非负矩阵分解,求得第一非负矩阵和第二非负矩阵;
将所述第一非负矩阵转换为与图像维度对应的格式,获取协同分割图像。
在一个具体的实施例中,所述特征图矩阵的表达式为:
A∈RV×H×W×C
所述第一非负矩阵和所述第二非负矩阵的表达式分别为:
P∈RV×H×W×K,Q∈RC×K
所述协同分割图像的表达式为:
S∈RV×H×W×K
其中,A为所述特征图矩阵,S为所述协同分割图像,P为所述第一非负矩阵,Q为所述第二非负矩阵,V为总视角数,H和W为图像的高和宽,C为所述卷积神经网络中卷积层的通道数,K表示非负矩阵分解过程中的所述第一非负矩阵P的列数,也是所述第二非负矩阵Q的行数,R为实数。
在一个具体的实施例中,所述交叉熵损失获取具体包括:
在所有视角中选取一个参考视角,除所述参考视角以外的视角为非参考视角,获取所述参考视角下的协同分割图像和所述非参考视角下的协同分割图像;
根据单应性公式计算同一位置的像素分别在所述参考视角下与所述非参考视角下的对应关系;
基于单应性映射公式和双线性插值策略,将所述非参考视角下的协同分割图像投影到参考视角下进行重建,获得重投影协同分割图像;
计算所述重投影协同分割图像与所述参考视角下的协同分割图像之间的交叉熵损失。
在一个具体的实施例中,所述参考视角下的协同分割图像和所述非参考视角下的协同分割图像的表达式分别为:
S1∈RH×W×K,Si∈RH×W×K
其中,S1为所述参考视角下的协同分割图像,Si为所述非参考视角下的协同分割图像V为总视角数,H和W为图像的高和宽,K表示所述第一非负矩阵P的列数,也是所述第二非负矩阵Q的行数,i为非参考视角,2≤i≤V;
所述对应关系表达式为:
Figure BDA0002937191530000051
所述重投影协同分割图像
Figure BDA0002937191530000052
表达式为:
Figure BDA0002937191530000053
其中,pj为像素在参考视角下的位置,
Figure BDA0002937191530000054
为像素在非参考视角下的位置,j表示图像中像素的索引值,D表示网络预测出的深度图,
Figure BDA0002937191530000055
为所述重投影协同分割图像。
在一个具体的实施例中,所述交叉熵损失表达式为:
f(S1,j)=onehot(ar gmax(S1,j))
所述语义一致性误差表达式为:
Figure BDA0002937191530000061
其中,f(S1,j)为所述交叉熵损失,LSC为所述语义一致性误差,Mi表示的是从非参考视角单应性投影映射到参考视角的有效区域,N为自然数集,j表示图像中像素的索引值,H和W为图像的高和宽,
Figure BDA0002937191530000062
为所述重投影协同分割图像,S1为所述参考视角下的协同分割图像,i为非参考视角。
在一个具体的实施例中,所述数据增强策略包括随机遮挡掩码、伽马校正、颜色扰动和随机噪声。
在一个具体的实施例中,所述数据增强一致性损失的表达式为:
Figure BDA0002937191530000063
其中,LDA所述数据增强一致性损失,数据增强函数
Figure BDA0002937191530000064
Figure BDA0002937191530000065
为所述随机遮挡掩码,
Figure BDA0002937191530000066
为所述伽马校正,
Figure BDA0002937191530000067
为所述颜色扰动和随机噪声,
Figure BDA0002937191530000068
表示所述随机遮挡掩码
Figure BDA0002937191530000069
中的二进制非遮挡有效区域掩码,D为所述深度图。
一种基于协同分割与数据增强的自监督三维重建系统,包括:
输入单元,用于获取输入数据,根据所述输入数据获取具有重合区域且视角相似的多视角图像对;
深度处理单元,用于通过对所述多视角图像对进行深度估计处理,获取光度一致性损失,
双支处理单元,包括协同分割单元和数据增强单元,所述协同分割单元和所述数据增强单元并行运行,协同分割单元用于通过对所述多视角图像对进行协同分割处理,获取语义一致性损失;数据增强单元用于通过对所述多视角图像对进行数据增强处理,获取数据增强一致性损失;
损失函数构建单元,用于根据所述光度一致性损失、所述语义一致性损失和所述数据增强一致性损失构建损失函数;
输出单元,用于根据所述损失函数构建并训练神经网络模型,基于所述神经网络模型获取所述输入数据的三维模型。
在一个具体的实施例中,所述输入单元包括:
输入数据获取单元,用于获取输入数据,所述输入数据包括图像或视频;
转换单元,用于判断所述输入数据是否为图像:若是,则在所述输入数据中选取多视角图像;若否,则将所述输入数据转换为多视角图像;
筛选单元,用于根据所述多视角图像获取视角相似且具有相同区域的多视角图像对;
预处理单元,用于对所述多视角图像对进行图像预处理。
在一个具体的实施例中,所述协同分割单元包括:
分割图像获取单元,用于通过非负矩阵对所述多视角图像对进行协同分割,获取协同分割图像;
交叉熵损失获取单元,用于获取参考视角和非参考视角,通过单应性映射将所述非参考视角上的协同分割图像进行重建得到重投影协同分割图像,并计算所述重投影协同分割图像与所述参考视角上的协同分割图像之间的交叉熵损失;
语义损失获取单元,用于根据所述交叉熵损失获取语义一致性损失。
在一个具体的实施例中,所述深度处理单元包括:
深度图像获取单元,用于基于深度估计网络对所述多视角图像进行深度估计,获取深度图像;
回归损失获取单元,用于获取参考视角和非参考视角,通过单应性映射将所述非参考视角上的深度图像进行重建得到重投影视图像,并根据所述重投影视图像计算回归损失;
光度损失获取单元,用于根据所述回归损失获取光度一致性损失。
在一个具体的实施例中,所述数据增强单元包括:
数据处理单元,用于采用不同的数据增强策略对所述多视角图像对进行数据增强处理;
数据损失获取单元,用于以所述深度图像为伪标签对所述数据增强处理后的多视角损失图像对进行监督,获取不同所述数据增强策略下的数据损失;
数据一致性损失获取单元,用于根据所述数据损失获取数据增强一致性损失。
本发明具有如下有益效果:
本发明提供了基于协同分割与数据增强的自监督三维重建方法及系统。针对亮度一致性歧义问题,引入抽象的语义线索以及在自监督信号中嵌入数据增强机制,增强了自监督信号在噪声扰动下的可靠性。
本发明提出的自监督训练方法超越了传统的无监督方法,并能与一些领先的有监督方法取得相当的效果。
基于协同分割的语义一致性损失,动态地从多视图对中通过聚类挖掘出共有语义信息部件。
数据增强一致性损失将自监督的分支扩展为双流结构,使用标准分支的预测结果作为伪标签,监督数据增强分支的预测结果,将数据增强对比一致性与亮度一致性假设解缠,分别进行处理,实现在自监督信号中引入大量的数据增强扩充训练集中的变化。
整个流程无需任何标签数据,不依赖于真值标注,而是从数据本身挖掘出有效信息实现网络的训练,极大节约了成本,缩短了重建进程。
将深度预测、协同分割以及数据增强融合到一起,在解决了显存溢出问题地基础上,提升了自监督信号的精度,使本实施例具备更好的泛化性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例1的自监督三维重建方法流程图;
图2是本发明实施例1的输入数据处理流程图;
图3是本发明实施例1的深度估计处理流程图;
图4是本发明实施例1的深度估计处理原理图;
图5是本发明实施例1的协同分割处理流程图;
图6是本发明实施例1的协同分割处理原理图;
图7是本发明实施例1的数据增强处理流程图;
图8是本发明实施例1的数据增强处理原理图;
图9是本发明实施例1的实验检测结果图;
图10是本发明实施例1的一个三维重建结果图;
图11是本发明实施例1的另一个三维重建结果图;
图12是本发明实施例2的系统模块图;
图13是本发明实施例2的系统具体结构图。
附图标记:
1-输入单元;2-深度处理单元;3-双支处理单元;4-损失函数构建单元;5-输出单元;11-输入数据获取单元;12-转换单元;13-筛选单元;14-预处理单元;21-深度图像获取单元;22-回归损失获取单元;23-光度损失获取单元;31-协同分割单元;311-分割图像获取单元;312-交叉熵损失获取单元;313-语义损失获取单元;32-数据增强单元;321-数据处理单元;322-数据损失获取单元;323-数据一致性损失获取单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的自监督三维重建算法中往往都是直接将不同视角的图像通过预测的深度图投影到参考视角,如果深度图足够可靠那么重投影的重建图像应该与实际的参考视角的原图像尽可能相似。在这个过程中,默认整个场景都服从于亮度一致性假设(Colorconstancy hypothesis),即:不同视角的匹配点具有相同的颜色。但是,在现实场景下,相机所拍摄的多视角图像不可避免地会存在各种干扰因素,如光照、噪声等等,导致不同视角的匹配点颜色分布有差异。然而在这种情况下,亮度一致性假设(Colorconstancyhypothesis)就不再有效,从而导致自监督信号本身就不再有效。最后,整个训练过程中,不可靠的自监督信号无法起到很好的监督作用,导致自监督方法训练出来的模型跟有监督方法相比不可避免地具有较大差异。这个问题被称为亮度一致性歧义问题。如果只进行常规训练,由于亮度一致性歧义,会导致模型在边缘区域模糊,且在很多区域都存在过平滑的问题。只有在数据量很大的情况下,或者相对比较理想的场景下,常规的自监督训练才可能不受到亮度一致性歧义问题的影响,并取得相当的效果。
亮度一致性歧义问题是无/自监督三维重建方法中的核心问题。因此,只有解决亮度一致性歧义问题,才可突破无/自监督三维重建方法的限制。
本发明针对亮度一致性歧义问题,提出了一种基于协同分割与数据增强的自监督三维重建方法及系统,通过引入抽象的语义线索以及在自监督信号中嵌入数据增强机制以增强自监督信号在噪声扰动下的可靠性,既能解决传统三维重建方法存在的细节损失、容易收到噪声光照干扰、过度依赖训练数据等问题,也能解决常规无/自监督三维重建方法的缺陷,超越了传统的无/自监督方法并能与一些高效的有监督方法取得相当的效果,且整个过程无需任何标注。
实验证明,本发明提供的自监督三维重建方法,在DTU数据集上超过了传统的无监督三维重建方法,并且能够实现与最先进的有监督方法相当的效果。此外,在不做任何微调的前提下,直接将本发明最终获取的无监督训练的模型应用在Tanks&Temples数据集上,也能超过传统的无监督方法。由于Tanks&Temples数据集本身包含了大量特殊的自然场景的光照变化,从侧面说明了本发明相比其他无监督方法具有较好的泛化性。
需要说明的是,本发明在采集样本数据时尽可能贴近真实场景下的光照效果,还原各类场景下的噪声干扰及颜色扰动,尽可能地模拟出各类自然场景,样本因此具有很强的代表性。而本发明能够适用于各种泛化的场景,相比于常规的自监督三维重建方法具有更强的针对性和更广的适用范围。
需要说明的是,本申请中的参考视图,包括深度估计处理、协同分割处理和数据增强处理所用的参考视图相同。一般来说,N个多视图中,每个视角都要构建一次多视角对,根据哪个视角构建多视角对,哪个视角就是参考视角。最后就会有N个多视角对。
实施例1
本实施例提出了一种基于协同分割与数据增强的自监督三维重建方法,如说明书附图1-11所示。流程步骤如说明书附图1,具体方案如下:
S1、获取输入数据,根据输入数据获取具有重合区域且视角相似的多视角图像对;
S2、通过对多视角图像对进行深度估计处理,获取光度一致性损失;
S3、通过对多视角图像对进行协同分割处理,获取语义一致性损失,通过对多视角图像对进行数据增强处理,获取数据增强一致性损失,协同分割处理和数据增强处理并行运行;
S4、根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数;
S5、根据损失函数构建并训练神经网络模型,基于神经网络模型获取输入数据的三维模型。
在本实施例中,步骤S1获取输入数据,根据输入数据获取具有重合区域且视角相似的多视角图像对。步骤S1流程如说明书附图2所示,具体包括:
S11、获取输入数据,输入数据包括图像或视频;
S12、判断输入数据是否为图像:若是,则在输入数据中选取多视角图像;若否,则将输入数据转换为多视角图像;
S13、根据多视角图像获取视角相似且具有相同区域的多视角图像对;
S14、对多视角图像对进行图像预处理。
具体地,原始多视角图像的数据采集,可以通过任意相机在各种不同视角下拍摄图像或是直接在相机移动过程中拍摄一段视频完成,本实施例的输入数据既可以是图像或视频,也可以是图像结合视频。如果是图像,仅需要从输入数据中提取多视角图像,从多视角图像中筛选出视角相似且具有相同区域的多视角图像对,最后通过基本的图像预处理如图像滤波等技术增强图像质量即可;如果是视频,则需要先将视频转换成多视角图像,从多视角图像中筛选出视角相似且具有相同区域的多视角图像对,再进行图像预处理。
特别地,步骤S13选取多视角图像对具体包括:通过二维尺度不变图像特征对所述多视角图像进行特征匹配,获取像素点的匹配信息和图像特征的匹配程度;
根据所述匹配信息获取相机外参矩阵,根据所述匹配程度计算图像之间的视角重合程度,并对所述视角重合程度进行排序,获取与每个视角接近的其它视角。
具体地,在获取多视角图像对之后,通过SIFT、ORB、SURF等二维尺度不变图像特征对所有多视角图像对两两之间进行特征匹配。依靠二维的图像像素点匹配信息,求解所有相机之间的光束法平差问题,计算得到不同相机之间的相对位姿关系,即相机外参矩阵。此外,根据图像特征子的匹配程度计算两两成对的所有图像对之间的视角重合程度。依照重合程度进行排序,得到针对每个视角而言剩余所有视角中与该视角最接近的前10个视角。由此可以将N个视角的多视图划分为N组多视角图像对,用于后续的立体视觉匹配过程。
在本实施例中,多视角图像对一般包括3-7张多视角图像,选取视角相似且具有重合区域的多视角图像对可方便后续的特征匹配。需要说明的是,如果视角差异过大,重合区域过小,后续流程找匹配点时有效区域会非常小,影响流程的进行。
在本实施例中,S2通过对多视角图像对进行深度估计处理,获取光度一致性损失,具体流程如说明书附图3所示,包括:
S21、基于深度估计网络对多视角图像进行深度估计,获取深度图像;
S22、获取参考视角和非参考视角,通过单应性映射将非参考视角上的深度图像进行重建得到重投影视图像,并根据重投影视图像计算回归损失;
S23、根据回归损失获取光度一致性损失。
深度估计处理是现有三维重建方法中常用的技术手段。具体流程包括:将多视角图像对和参考视图输入到深度估计网络进行深度估计,可获得深度图,将深度图和多视角图像对进行单应性映射,对非参考视角上的深度图像进行重建得到重投影视图像,通过计算重投影视图和参考视图之间的差异可获取回归损失,即L2损失,基于L2损失获取光度一致性误差。具体原理如说明书附图4所示。
在本实施例中,S3通过对多视角图像对进行协同分割处理,获取语义一致性损失,通过对多视角图像对进行数据增强处理,获取数据增强一致性损失,协同分割处理和数据增强处理并行运行。步骤S3是本实施例的核心步骤,通过协同分割处理和数据增强处理两个分支并行运行,获取语义一致性损失和数据增强一致性损失。
其中,基于协同分割的语义一致性损失,动态地从多视图对中通过聚类挖掘出共有语义信息部件,无需真值标签,可以泛化到任意场景,对场景内多视图的共有信息进行无监督聚类,不需要依靠人为定义的语义类别。而现有的基于语义一致性的方案往往都需要通过大量的人工标注来获得语义标注,成本非常高;此外这些方法还受限与特定的场景,和特定的人为定义的语义类别,无法适用于任意场景。协同分割处理具体流程如说明书附图5所示,包括:
S311、通过非负矩阵对多视角图像对进行协同分割,获取协同分割图像;
S312、获取参考视角和非参考视角,通过单应性映射将非参考视角上的协同分割图像进行重建得到重投影协同分割图像,并计算重投影协同分割图像与参考视角上的协同分割图像之间的交叉熵损失;
S313、根据交叉熵损失获取语义一致性损失。
协同分割处理流程包括:将参考视图和多视角图像对输入到预训练的VGG网络,接着进行非负矩阵分解,获取参考视角下的协同分割图像和非参考视角下的协同分割图像,对非参考视角下的协同分割图像进行单应性投影获取重投影协同分割图像,计算重投影协同分割图像与参考视角下的协同分割图像之间的交叉熵损失,进而获取语义一致性误差。具体流程如说明书附图6所示。
在本实施例中,协同分割处理与步骤S2的深度估计处理类似。将参考视图和多视角图像对输入到预训练的卷积神经网络。特别地,多视角图像对中的每张图像都会被送入一个共享权重的卷积神经网络提取特征,优选地,卷积神经网络选用ImageNet预训练的VGG网络。由此,每个视角的图像都会得到一个对应的特征图张量,特征图张量的维度是H×W×C,其中,H和W为图像的高和宽,C为卷积神经网络中卷积层的通道数。所有视角的特征图张量被展开并凭借到一起构成一个二维矩阵,即特征图矩阵A∈RV×H×W×C,其维度是V×H×W×C,其中V是总视角数。通过链式迭代式对所述特征图矩阵进行非负矩阵分解,求得第一非负矩阵P和第二非负矩阵Q。第一非负矩阵P和所述第二非负矩阵Q的表达式分别为:
P∈RV×H×W×K,Q∈RC×K
K表示非负矩阵分解过程中的P矩阵的列数,也是Q矩阵的行数。由于非负矩阵的正交约束假设,要求其中的Q矩阵必须为满足以下条件:QQT=I,其中,I为单位矩阵。由于正交约束的限制,Q矩阵的每行向量都需要同时包含可能多的A矩阵的信息,且保持尽可能地不重合。换句话说,Q矩阵的每行向量可以近似地看做聚类的簇中心,而非负矩阵分解求解的过程也可以看做聚类的过程。相应地,P矩阵表示的就是所有多视角图像的每个像素针对语义上的聚类簇中心(Q矩阵每行的向量)的相关程度,即分割置信度。由此实现不依靠任何监督信号实现多视角图像的协同分割,提取得到多视角图像的共有语义信息。非负矩阵分解实现协同分割提取共有语义信息示意图如说明书附图所示。
将第一非负矩阵转换为与图像维度对应的格式,获取协同分割图像。协同分割图像S的表达式为:
S∈RV×H×W×K
其中,V为总视角数,H和W为图像的高和宽,也是第二非负矩阵Q的行数,R为实数。
需要说明的是,在协同分割分支中,为了兼顾计算量和效率,只是采用了一个较为简单的传统方案进行协同分割任务。但是在协同分割领域其实还存在较多的替代方案,本实施例可以通过其他的聚类算法来做协同分割任务,实现相当的效果。
特别地,在非负矩阵分解实现时,由于方法本身存在缺陷,在处理真实场景的多视图经常求解失败。而这一问题很大程度是因为迭代式求解的过程高度依赖于随机初始化状态值,一旦没有碰到较好的初始值,整个非负矩阵分解的求解无法收敛,协同分割也会失败,最后导致整个训练过程无法进行。本实施例将原始的迭代式求解过程扩展为了多分支并行求解的过程,每次随机初始化多组解,从中选取最优的再送入下次迭代过程中。很大程度上回避了由于随机初始化值不好而导致求解失败的问题。
此外,由于语义分割任务的特殊性,往往需要限定特定的场景和可能的语义类别。而本实施例只需要挖掘不同视图中的共有语义部件(聚类簇),不再需要关心特定的场景和语义标签。因此,本实施例提供的方法可以泛化到任意动态变化的场景,而不需要像其他方法一样需要大量繁琐昂贵的语义标注工作。
在本实施例中,S312具体包括:将V个视图划分为一个参考视角与一系列非参考视角组成的视角对,参考视角下的协同分割图像S1和非参考视角下的协同分割图像Si的表达式分别为:
S1∈RH×W×K,Si∈RH×W×K
默认序号为1的视角为参考视角,而序号为i的视角定义为非参考视角,其中,2≤i≤V。根据相机内参和外参矩阵$(K,T)$,由单应性公式可以计算参考视角下位置为pj的像素与源视角中位置为
Figure BDA0002937191530000171
的像素的对应关系:
Figure BDA0002937191530000172
其中,pj为像素在参考视角下的位置,
Figure BDA0002937191530000173
为像素在非参考视角下的位置,j表示图像或分割图中像素的索引值,且1≤j≤H×W,D表示网络预测出的深度图。
接着,根据单应性映射公式和双线性插值策略,非参考视角下的协同分割图像Si可以投影到参考视角下重投影协同分割图像
Figure BDA0002937191530000174
Figure BDA0002937191530000175
表达式为:
Figure BDA0002937191530000176
通过计算重投影协同分割图像
Figure BDA0002937191530000177
与参考视角下的协同分割图像的差异,可以得到交叉熵损失f(S1,j),f(S1,j)的表达式为:
f(S1,j)=omehot(ar gmax(S1,j))
根据交叉熵损失获取语义一致性误差,语义一致性误差LSC,i表达式为:
Figure BDA0002937191530000178
其中,Mi表示的是从参考视角单应性投影映射到参考视角的有效区域。
对所有视角对间都计算重建语义分割图与原始语义分割图的交叉熵损失。如果预测的深度图是正确的,那么根据其重建的语义分割图也应该与原始语义分割图尽可能相似。整个语义一致性损失的计算公式如下:
Figure BDA0002937191530000179
其中,f(S1,j)为交叉熵损失,LSC为语义一致性误差,Mi表示的是从非参考视角单应性投影映射到参考视角的有效区域,N为自然数集,j表示图像中像素的索引值,H和W为图像的高和宽,
Figure BDA00029371915300001710
为重投影协同分割图像,S1为参考视角下的协同分割图像,i为非参考视角。
在本实施例中,训练时语义一致性损失的权重默认设置为0.1。
由于数据增强操作本身会导致多视角图像的像素值发生变化,因此直接应用数据增强策略可能会破坏自监督信号的亮度一致性假设。不同于有监督方法的真值标签,自监督信号来自于数据本身,更容易受到数据本身的噪声干扰。为了使数据增强策略引入自监督训练框架,将原始的自监督训练分支拓展为双流结构,一个标准分支仅有光度立体视觉自监督信号监督,而另一个分支则引入各种随机数据增强变化。
其中,数据增强一致性损失将自监督的分支扩展为双流结构,使用标准分支的预测结果作为伪标签,监督数据增强分支的预测结果,将数据增强对比一致性与亮度一致性假设解缠,分别进行处理,实现在自监督信号中引入大量的数据增强扩充训练集中的变化。而现有的基于光度立体一致性的自监督信号往往受限于亮度一致性假设,不允许数据增强操作。因为数据增强会改变图像的像素分布,导致亮度一致性假设受到破坏,反过来导致亮度一致性歧义,使得自监督信号不够可靠。数据增强处理具体流程如说明书附图7所示,包括:
S321、采用不同的数据增强策略对多视角图像对进行数据增强处理;
S322、以深度图像为伪标签对数据增强处理后的多视角损失图像对进行监督,获取不同数据增强策略下的数据损失;
S323、根据数据损失获取数据增强一致性损失。
数据增强处理具体流程包括:将参考视图和多视角图像对输入到深度估计网络进行深度估计处理,获取深度图,根据深度图获取有效区域掩码,将有效区域掩码作为伪标签。对参考视图和多视角图像对进行随机数据增强后输入到深度估计网络进行深度估计处理获取对比深度图,计算对比深度图和伪标签之间的差异,进而获取数据增强一致性损失。数据增强处理原理如说明书附图8所示。
在本实施例中,数据增强策略包括随机遮挡掩码、伽马校正、颜色扰动和随机噪声。原始的多视图为I,而作用在多视角图像对上的数据增强函数为τθ,数据增强后的多视图为
Figure BDA0002937191530000191
θ表示数据增强过程中与具体操作相关的参数。受限于多视角几何的视角约束,不能改变像素位置的分布,否则可能破坏标定相机之间的对应关系。所采用的数据增强分别为:随机遮挡掩码
Figure BDA0002937191530000192
伽马校正
Figure BDA0002937191530000193
颜色扰动和随机噪声
Figure BDA0002937191530000194
随机遮挡掩码
Figure BDA0002937191530000195
为模仿多视角下的前景遮挡情景,可以随机生成一个二进制掩码遮挡掩码
Figure BDA0002937191530000196
参考视角下的一部分区域,而
Figure BDA0002937191530000197
表示剩下的在预测中有效的区域。而
Figure BDA0002937191530000198
所包含的区域对于遮挡变化应当保持不变性,所以整个系统应该在这种人为制造的遮挡边缘上保持不变性,由此便可以引导模型更多地关注遮挡边缘的处理。
伽马校正
Figure BDA0002937191530000199
伽马校正是一个常见的被用来调整图像光照的数据增强操作。为了模拟尽可能多且复杂的光照变化情况,引入了随机伽马校正来进行数据增强。
颜色扰动和随机噪声
Figure BDA00029371915300001910
由于亮度一致性歧义问题的存在,任何颜色扰动都会改变图像的像素分布,破坏基于立体视觉的自监督损失的有效性。因此自监督损失难以在存在颜色扰动的情况下保持鲁棒性。通过随机对图像的RGB像素值进行扰动,并添加上随机高斯噪声等等,以辅助数据增强并模拟尽可能多的扰动变化。
需要说明的是,本实施例在数据增强分支中,只使用了三种数据增强策略,并没有枚举所有数据增强策略的组合并拼凑出最优的数据增强组合。作为替代方案,可使用一些特殊的自适应数据增强方案。
其中,S322以深度图像为伪标签对数据增强处理后的多视角图像对进行监督,获取不同数据增强策略下的数据损失。数据增强策略需要保证有一个相对可靠的参考标准,在有监督训练中这个参考标准往往是随机数据增强针对真值标签的不变性,而在自监督训练中这个假设却无法成立,因为无法获得真值标签。因此,本实施例以标准自监督训练的分支预测的深度图作为伪真值标签,即步骤S2中的深度估计处理中的深度图,要求随机数据增强后的预测结果尽可能保证针对伪标签的不变性。这一操作可以将数据增强与自监督损失解耦,而不会影响到自监督损失的亮度一致性假设。
步骤S321中的几个数据增强策略组合起来可以得到综合的数据增强函数:
Figure BDA0002937191530000201
标准自监督分支预测(深度估计处理)的深度图为D,数据增强分支预测的深度图为
Figure BDA0002937191530000202
计算数据增强一致性损失,数据增强一致性损失LDA的表达式为:
Figure BDA0002937191530000203
其中,
Figure BDA0002937191530000204
Figure BDA0002937191530000205
为随机遮挡掩码,
Figure BDA0002937191530000206
为伽马校正,
Figure BDA0002937191530000207
为染色绕道和随机噪声,
Figure BDA0002937191530000208
Figure BDA0002937191530000209
表示随机遮挡掩码
Figure BDA00029371915300002010
中的二进制非遮挡有效区域掩码,
Figure BDA00029371915300002011
Figure BDA00029371915300002012
为点乘,D为网络预测出的深度图。
在训练过程中,每次都对每张图像采用不同的随机数据增强策略,随后利用上述公式计算损失LDA。另外,由于数据增强损失要求整体的训练过程已经收敛,因此在训练前期的数据增强损失如果权重过大,可能导致自监督训练无法收敛。为此,根据训练进度自适应地调整数据增强损失的影响权重。在起始阶段权重为0.01,随后每经过两个epoch权重翻倍一次。在网络收敛后,数据增强损失才起到实质作用。
特别地,由于整个自监督训练框架使用了较多操作,特别是数据增强分支把整个网络跑了两次前向。一般来说,如果直接使用并行的前向-反向更新策略,训练过程中的GPU显存是不够的(默认11G),存在现存溢出问题。本实施例针对显存溢出问题,采用了用时间换空间的策略。将原始的一次前向-计算自监督损失-反向传播的流程切分为两组前向反向传播的过程。先前向计算标准分支的自监督损失,然后反向传播更新梯度,清除缓存,并保存标准分支预测的深度图结果作为伪标签;随后前向计算数据增强分支的自监督损失,在利用伪标签监督其训练。由于多个损失的梯度更新被解耦到不同阶段,不需要同时占用显存,很大程度上减少了GPU的显存占用。
在本实施例中,S4根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数。损失函数L的表达式为:
L=LPC+LDA+LSC
其中,LPC为光度一致性损失,LDA为数据增强一致性损失,LSC为语义一致性损失。
本实施例将传统的立体匹配替换成了基于深度学习的稠密深度图估计,根据损失函数构建并训练出一个神经网络模型,将该神经网络模型应用到完整的三维重建中,得到三维模型,效果可以与人工标注样本的方法相当。本实施例提供了一个低成本训练高精度三维重建模型的替代方案,可以拓展到地图勘探、自动驾驶、AR/VR等与三维重建相关的场景。
基于DTU数据集对本实施例提出的方法进行检测,实验检测结果如说明书附图9所示。其中,本发明实施例提出的DACS-MS在DTU数据集上平均每个点的重建误差为0.358mm,远小于同类无监督方法如MVS、MVS2、M3VSNet。与有监督方法相比,DACS-MS也接近现有技术中最先进的有监督方法,超越部分现有的有监督方法。实验结果表面,本实施提出的自监督方法在DTU数据集上超过了传统的无监督三维重建方法,并且能够实现与最先进的有监督方法相当的效果。利用本实施例提供的基于协同分割与数据增强的自监督三维重建方法重建出的模型效果如说明书附图10和说明书附图11所示。本实施例的实验结果为附图第三列所示,由具体的实验结果表面,本实施例完全能够实现与有监督方法相同或相近的技术效果,重建出的三维模型符合技术要求。
本实施例提供了基于协同分割与数据增强的自监督三维重建方法,针对亮度一致性歧义问题,引入抽象的语义线索以及在自监督信号中嵌入数据增强机制,增强了自监督信号在噪声扰动下的可靠性。本实施例提出的自监督训练方法超越了传统的无监督方法,并能与一些领先的有监督方法取得相当的效果。基于协同分割的语义一致性损失,动态地从多视图对中通过聚类挖掘出共有语义信息部件。数据增强一致性损失将自监督的分支扩展为双流结构,使用标准分支的预测结果作为伪标签,监督数据增强分支的预测结果,将数据增强对比一致性与亮度一致性假设解缠,分别进行处理,实现在自监督信号中引入大量的数据增强扩充训练集中的变化。整个流程无需任何标签数据,不依赖于真值标注,而是从数据本身挖掘出有效信息实现网络的训练,极大节约了成本,缩短了重建进程。将深度预测、协同分割以及数据增强融合到一起,在解决了显存溢出问题地基础上,提升了自监督信号的精度,使本实施例具备更好的泛化性。
实施例2
本实施例在实施例1的基础上,将实施例1提出的一种基于协同分割与数据增强的自监督三维重建方法模块化,形成一种基于协同分割与数据增强的自监督三维重建系统,各模块示意图如说明书附图12所示,完整的系统结构图如说明书附图13所示。
一种基于协同分割与数据增强的自监督三维重建系统,包括依次连接的输入单元1、深度处理单元2、双支处理单元3、损失函数构建单元4和输出单元5。
输入单元1,用于获取输入数据,根据输入数据获取具有重合区域且视角相似的多视角图像对。输入单元包括输入数据获取单元11、转换单元12、筛选单元13和预处理单元14。
深度处理单元2,用于通过对多视角图像对进行深度估计处理,获取光度一致性损失。深度处理单元包括深度图像获取单元21、回归损失获取单元22和光度损失获取单元23。
双支处理单元3,包括协同分割单元31和数据增强单元32,协同分割单元31和数据增强单元32并行运行,协同分割单元31用于通过对多视角图像对进行协同分割处理,获取语义一致性损失。数据增强单元32用于通过对多视角图像对进行数据增强处理,获取数据增强一致性损失。
损失函数构建单元4,用于根据光度一致性损失、语义一致性损失和数据增强一致性损失构建损失函数。
输出单元5,用于根据损失函数构建并训练神经网络模型,基于神经网络模型获取输入数据的三维模型。
其中,深度处理单元2包括深度图像获取单元21、回归损失获取单元22和光度损失获取单元23。基本原理包括:将多视角图像对和参考视图输入到深度估计网络进行深度估计,可获得深度图,将深度图和多视角图像对进行单应性映射,对非参考视角上的深度图像进行重建得到重投影视图像,通过计算重投影视图和参考视图之间的差异可获取回归损失,基于回归损失获取光度一致性误差。具体结构包括:
深度图像获取单元21,用于通过深度估计网络对多视角图像进行深度估计,获取深度图像。
回归损失获取单元22,用于获取参考视角和非参考视角,通过单应性映射将非参考视角上的深度图像进行重建得到重投影视图像,并根据重投影视图像计算回归损失。
光度损失获取单元23,用于根据回归损失获取光度一致性损失。
其中,协同分割单元31包括分割图像获取单元311、交叉熵损失获取单元312和语义损失获取单元313。协同分割单元31的基本原理包括:将参考视图和多视角图像对输入到预训练的VGG网络,接着进行非负矩阵分解,获取参考视角下的协同分割图像和非参考视角下的协同分割图像,对非参考视角下的协同分割图像进行单应性投影获取重投影协同分割图像,计算重投影协同分割图像与参考视角下的协同分割图像之间的交叉熵损失,进而获取语义一致性误差。具体结构包括:
分割图像获取单元311,用于通过非负矩阵对多视角图像对进行协同分割,获取协同分割图像。
交叉熵损失获取单元312,用于获取参考视角和非参考视角,通过单应性映射将非参考视角上的协同分割图像进行重建得到重投影协同分割图像,并计算重投影协同分割图像与参考视角上的协同分割图像之间的交叉熵损失。
语义损失获取单元313,用于根据交叉熵损失获取语义一致性损失。
其中,数据增强单元32包括数据处理单元321、数据损失获取单元322和数据一致性损失获取单元323。数据增强单元32的基本原理包括:将参考视图和多视角图像对输入到深度处理单元进行深度估计处理,获取深度图,根据深度图获取有效区域掩码,将有效区域掩码作为伪标签。对参考视图和多视角图像对进行随机数据增强后输入搭配深度估计网络进行深度估计处理获取对比深度图,计算对比深度图和伪标签之间的差异,进而获取数据增强一致性损失。具体结构包括:
数据处理单元321,用于采用不同的数据增强策略对多视角图像对进行数据增强处理。数据处理单元设置有深度估计网络。
数据损失获取单元322,用于以深度图像为伪标签对数据增强处理后的多视角损失图像对进行监督,获取不同数据增强策略下的数据损失。
数据一致性损失获取单元323,用于根据数据损失获取数据增强一致性损失。
其中,输入单元1包括输入数据获取单元11、转换单元12、筛选单元13和预处理单元14。具体结构包括:
输入数据获取单元11,用于获取输入数据,输入数据包括图像或视频。
转换单元12,用于判断输入数据是否为图像:若是,则在输入数据中选取多视角图像。若否,则将输入数据转换为多视角图像。
筛选单元13,用于根据多视角图像获取视角相似且具有相同区域的多视角图像对。
预处理单元14,用于对多视角图像对进行图像预处理。
本实施例在实施例1的基础上,提出了一种基于深度学习的样本图像生成系统,将实施例1的方法模块化,形成一种具体的系统,使其更具备实用性。
本发明针对现有技术,提供了基于协同分割与数据增强的自监督三维重建方法及系统。针对亮度一致性歧义问题,引入抽象的语义线索以及在自监督信号中嵌入数据增强机制,增强了自监督信号在噪声扰动下的可靠性。本发明提出的自监督训练方法超越了传统的无监督方法,并能与一些领先的有监督方法取得相当的效果。基于协同分割的语义一致性损失,动态地从多视图对中通过聚类挖掘出共有语义信息部件。数据增强一致性损失将自监督的分支扩展为双流结构,使用标准分支的预测结果作为伪标签,监督数据增强分支的预测结果,将数据增强对比一致性与亮度一致性假设解缠,分别进行处理,实现在自监督信号中引入大量的数据增强扩充训练集中的变化。整个流程无需任何标签数据,不依赖于真值标注,而是从数据本身挖掘出有效信息实现网络的训练,极大节约了成本,缩短了重建进程。将深度预测、协同分割以及数据增强融合到一起,在解决了显存溢出问题地基础上,提升了自监督信号的精度,使本实施例具备更好的泛化性。将方法模块化,形成一种具体的系统,使其更具备实用性。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (18)

1.一种基于协同分割与数据增强的自监督三维重建方法,其特征在于,包括:
图像对获取:获取输入数据,根据所述输入数据获取具有重合区域且视角相似的多视角图像对;
深度估计处理:通过对所述多视角图像对进行深度估计处理,获取光度一致性损失;
协同分割处理:通过对所述多视角图像对进行协同分割处理,获取语义一致性损失;
数据增强处理:通过对所述多视角图像对进行数据增强处理,获取数据增强一致性损失;
构建损失函数:根据所述光度一致性损失、所述语义一致性损失和所述数据增强一致性损失构建损失函数;
模型输出:根据所述损失函数构建并训练神经网络模型,基于所述神经网络模型获取与所述输入数据对应的三维模型。
2.根据权利要求1所述的方法,其特征在于,所述协同分割处理具体包括:
协同分割图像获取:通过非负矩阵对所述多视角图像对进行协同分割,获取协同分割图像;
交叉熵损失获取:获取参考视角和非参考视角,将所述非参考视角上的协同分割图像进行重建得到重投影协同分割图像,并计算所述重投影协同分割图像与所述参考视角上的协同分割图像之间的交叉熵损失;
语义一致性损失获取:根据所述交叉熵损失获取语义一致性损失。
3.根据权利要求1或2所述的方法,其特征在于,所述深度估计处理具体包括:
基于深度估计网络对所述多视角图像进行深度估计,获取深度图像;
获取参考视角和非参考视角,将所述非参考视角上的深度图像进行重建得到重投影视图像,并根据所述重投影视图像计算回归损失;
根据所述回归损失获取光度一致性损失。
4.根据权利要求3所述的方法,其特征在于,所述数据增强处理具体包括:
采用不同的数据增强策略对所述多视角图像对进行数据增强;
以所述深度图像为伪标签对数据增强后的多视角图像对进行监督,获取不同所述数据增强策略下的数据损失;
根据所述数据损失获取数据增强一致性损失。
5.根据权利要求1所述的方法,其特征在于,所述图像对获取具体包括:
获取输入数据,所述输入数据包括图像或视频;
判断所述输入数据是否为图像:若是,则在所述输入数据中选取多视角图像;若否,则将所述输入数据转换为多视角图像;
在所述多视角图像中获取视角相似且具有相同区域的多视角图像对;
对所述多视角图像对进行图像预处理。
6.根据权利要求5所述的方法,其特征在于,所述“在所述多视角图像中获取视角相似且具有相同区域的多视角图像对”还包括:
通过二维尺度不变图像特征对所述多视角图像进行特征匹配,获取图像特征的匹配程度;
根据所述匹配程度计算图像之间的视角重合程度,并对所述视角重合程度进行排序,获取视角相似且具有相同区域的多视角图像对。
7.根据权利要求2所述的方法,其特征在于,所述协同分割图像获取具体包括:
通过卷积神经网络对所述多视角图像对中的每张图像进行特征提取,获取每个视角的特征图张量,所有视角的特征图张量构成特征图矩阵;
通过链式迭代式对所述特征图矩阵进行非负矩阵分解,求得第一非负矩阵和第二非负矩阵;
将所述第一非负矩阵转换为与图像维度对应的格式,获取协同分割图像。
8.根据权利要求7所述的方法,其特征在于,所述特征图矩阵的表达式为:
A∈RV×H×W×C
所述第一非负矩阵和所述第二非负矩阵的表达式分别为:
P∈RV×H×W×K,Q∈RC×K
所述协同分割图像的表达式为:
S∈RV×H×W×K
其中,A为所述特征图矩阵,S为所述协同分割图像,P为所述第一非负矩阵,Q为所述第二非负矩阵,V为总视角数,H和W为图像的高和宽,C为所述卷积神经网络中卷积层的通道数,K表示非负矩阵分解过程中的所述第一非负矩阵P的列数,也是所述第二非负矩阵Q的行数,R为实数。
9.根据权利要求2或7所述的方法,其特征在于,所述交叉熵损失获取具体包括:
在所有视角中选取一个参考视角,除所述参考视角以外的视角为非参考视角,获取所述参考视角下的协同分割图像和所述非参考视角下的协同分割图像;
根据单应性公式计算同一位置的像素分别在所述参考视角下与所述非参考视角下的对应关系;
基于单应性映射公式和双线性插值策略,将所述非参考视角下的协同分割图像投影到参考视角下进行重建,获得重投影协同分割图像;
计算所述重投影协同分割图像与所述参考视角下的协同分割图像之间的交叉熵损失。
10.根据权利要求9所述的方法,其特征在于,所述参考视角下的协同分割图像和所述非参考视角下的协同分割图像的表达式分别为:
S1∈RH×W×K,Si∈RH×W×K
其中,S1为所述参考视角下的协同分割图像,Si为所述非参考视角下的协同分割图像V为总视角数,H和W为图像的高和宽,K表示所述第一非负矩阵P的列数,也是所述第二非负矩阵Q的行数,i为非参考视角,2≤i≤V;
所述对应关系表达式为:
Figure FDA0002937191520000041
所述重投影协同分割图像
Figure FDA0002937191520000042
表达式为:
Figure FDA0002937191520000043
其中,pj为像素在参考视角下的位置,
Figure FDA0002937191520000044
为像素在非参考视角下的位置,j表示图像中像素的索引值,D表示网络预测出的深度图,
Figure FDA0002937191520000045
为所述重投影协同分割图像。
11.根据权利要求10所述的方法,其特征在于,所述交叉熵损失表达式为:
f(S1,j)=onehot(argmax(S1,j))
所述语义一致性误差表达式为:
Figure FDA0002937191520000046
其中,f(S1,j)为所述交叉熵损失,LSC为所述语义一致性误差,Mi表示的是从非参考视角单应性投影映射到参考视角的有效区域,N为自然数集,i为非参考视角,j表示图像中像素的索引值,H和W为图像的高和宽,
Figure FDA0002937191520000047
为所述重投影协同分割图像,S1为所述参考视角下的协同分割图像。
12.根据权利要求4所述的方法,其特征在于,所述数据增强策略包括随机遮挡掩码、伽马校正、颜色扰动和随机噪声。
13.根据权利要求12所述的方法,其特征在于,所述数据增强一致性损失的表达式为:
Figure FDA0002937191520000051
其中,LDA为所述数据增强一致性损失,数据增强函数
Figure FDA0002937191520000052
Figure FDA0002937191520000053
为所述随机遮挡掩码,
Figure FDA0002937191520000054
为所述伽马校正,
Figure FDA0002937191520000055
为所述颜色扰动和随机噪声,
Figure FDA0002937191520000056
Figure FDA0002937191520000057
表示所述随机遮挡掩码
Figure FDA0002937191520000058
中的二进制非遮挡有效区域掩码,D为所述深度图。
14.一种基于协同分割与数据增强的自监督三维重建系统,其特征在于,包括:
输入单元,用于获取输入数据,根据所述输入数据获取具有重合区域且视角相似的多视角图像对;
深度处理单元,用于通过对所述多视角图像对进行深度估计处理,获取光度一致性损失,
双支处理单元,包括协同分割单元和数据增强单元,所述协同分割单元和所述数据增强单元并行运行,协同分割单元用于通过对所述多视角图像对进行协同分割处理,获取语义一致性损失;数据增强单元用于通过对所述多视角图像对进行数据增强处理,获取数据增强一致性损失;
损失函数构建单元,用于根据所述光度一致性损失、所述语义一致性损失和所述数据增强一致性损失构建损失函数;
输出单元,用于根据所述损失函数构建并训练神经网络模型,基于所述神经网络模型获取所述输入数据的三维模型。
15.根据权利要求14所述的系统,其特征在于,所述输入单元包括:
输入数据获取单元,用于获取输入数据,所述输入数据包括图像或视频;
转换单元,用于判断所述输入数据是否为图像:若是,则在所述输入数据中选取多视角图像;若否,则将所述输入数据转换为多视角图像;
筛选单元,用于根据所述多视角图像获取视角相似且具有相同区域的多视角图像对;
预处理单元,用于对所述多视角图像对进行图像预处理。
16.根据权利要求14或15所述的系统,其特征在于,所述协同分割单元包括:
分割图像获取单元,用于通过非负矩阵对所述多视角图像对进行协同分割,获取协同分割图像;
交叉熵损失获取单元,用于获取参考视角和非参考视角,通过单应性映射将所述非参考视角上的协同分割图像进行重建得到重投影协同分割图像,并计算所述重投影协同分割图像与所述参考视角上的协同分割图像之间的交叉熵损失;
语义损失获取单元,用于根据所述交叉熵损失获取语义一致性损失。
17.根据权利要求16所述的系统,其特征在于,所述深度处理单元包括:
深度图像获取单元,用于基于深度估计网络对所述多视角图像进行深度估计,获取深度图像;
回归损失获取单元,用于获取参考视角和非参考视角,通过单应性映射将所述非参考视角上的深度图像进行重建得到重投影视图像,并根据所述重投影视图像计算回归损失;
光度损失获取单元,用于根据所述回归损失获取光度一致性损失。
18.根据权利要求17所述的系统,其特征在于,所述数据增强单元包括:
数据处理单元,用于采用不同的数据增强策略对所述多视角图像对进行数据增强处理;
数据损失获取单元,用于以所述深度图像为伪标签对所述数据处理单元处理后的多视角损失图像对进行监督,获取不同所述数据增强策略下的数据损失;
数据一致性损失获取单元,用于根据所述数据损失获取数据增强一致性损失。
CN202110162782.9A 2021-02-05 2021-02-05 基于协同分割与数据增强的自监督三维重建方法及系统 Active CN112767468B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110162782.9A CN112767468B (zh) 2021-02-05 2021-02-05 基于协同分割与数据增强的自监督三维重建方法及系统
PCT/CN2021/137980 WO2022166412A1 (zh) 2021-02-05 2021-12-14 基于协同分割与数据增强的自监督三维重建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110162782.9A CN112767468B (zh) 2021-02-05 2021-02-05 基于协同分割与数据增强的自监督三维重建方法及系统

Publications (2)

Publication Number Publication Date
CN112767468A true CN112767468A (zh) 2021-05-07
CN112767468B CN112767468B (zh) 2023-11-03

Family

ID=75705190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110162782.9A Active CN112767468B (zh) 2021-02-05 2021-02-05 基于协同分割与数据增强的自监督三维重建方法及系统

Country Status (2)

Country Link
CN (1) CN112767468B (zh)
WO (1) WO2022166412A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379767A (zh) * 2021-06-18 2021-09-10 中国科学院深圳先进技术研究院 一种构建自我监督点云学习的语义扰动重构网络的方法
CN113592913A (zh) * 2021-08-09 2021-11-02 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
WO2022166412A1 (zh) * 2021-02-05 2022-08-11 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
CN115082628A (zh) * 2022-07-27 2022-09-20 浙江大学 一种基于隐式光传输函数的动态绘制方法和装置
CN115222790A (zh) * 2022-08-11 2022-10-21 中国科学技术大学 单光子三维重建方法、系统、设备及存储介质
WO2023015414A1 (zh) * 2021-08-09 2023-02-16 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
CN115965758A (zh) * 2022-12-28 2023-04-14 无锡东如科技有限公司 一种图协同单目实例三维重建方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862149B (zh) * 2022-12-30 2024-03-22 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN115860091B (zh) * 2023-02-15 2023-04-28 武汉图科智能科技有限公司 一种基于正交约束的深度特征描述符学习方法
CN117152168B (zh) * 2023-10-31 2024-02-09 山东科技大学 一种基于频段分解和深度学习的医学图像分割方法
CN117333758B (zh) * 2023-12-01 2024-02-13 博创联动科技股份有限公司 基于大数据分析的田地路线识别系统
CN117635679B (zh) * 2023-12-05 2024-05-28 之江实验室 一种基于预训练扩散概率模型的曲面高效重建方法和装置
CN117437363B (zh) * 2023-12-20 2024-03-22 安徽大学 基于深度感知迭代器的大规模多视图立体方法
CN117541662B (zh) * 2024-01-10 2024-04-09 中国科学院长春光学精密机械与物理研究所 一种同时标定相机内参和导出相机坐标系的方法
CN117611601B (zh) * 2024-01-24 2024-04-23 中国海洋大学 基于文字辅助的半监督3d医学图像分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130107006A1 (en) * 2011-10-28 2013-05-02 New York University Constructing a 3-dimensional image from a 2-dimensional image and compressing a 3-dimensional image to a 2-dimensional image
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
CN109712228A (zh) * 2018-11-19 2019-05-03 中国科学院深圳先进技术研究院 建立三维重建模型的方法、装置、电子设备及存储介质
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767468B (zh) * 2021-02-05 2023-11-03 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130107006A1 (en) * 2011-10-28 2013-05-02 New York University Constructing a 3-dimensional image from a 2-dimensional image and compressing a 3-dimensional image to a 2-dimensional image
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
CN109712228A (zh) * 2018-11-19 2019-05-03 中国科学院深圳先进技术研究院 建立三维重建模型的方法、装置、电子设备及存储介质
CN110246212A (zh) * 2019-05-05 2019-09-17 上海工程技术大学 一种基于自监督学习的目标三维重建方法
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022166412A1 (zh) * 2021-02-05 2022-08-11 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
CN113379767A (zh) * 2021-06-18 2021-09-10 中国科学院深圳先进技术研究院 一种构建自我监督点云学习的语义扰动重构网络的方法
CN113592913A (zh) * 2021-08-09 2021-11-02 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
WO2023015414A1 (zh) * 2021-08-09 2023-02-16 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
CN113592913B (zh) * 2021-08-09 2023-12-26 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
CN115082628A (zh) * 2022-07-27 2022-09-20 浙江大学 一种基于隐式光传输函数的动态绘制方法和装置
CN115082628B (zh) * 2022-07-27 2022-11-15 浙江大学 一种基于隐式光传输函数的动态绘制方法和装置
WO2024021363A1 (zh) * 2022-07-27 2024-02-01 浙江大学 一种基于隐式光传输函数的动态绘制方法和装置
CN115222790A (zh) * 2022-08-11 2022-10-21 中国科学技术大学 单光子三维重建方法、系统、设备及存储介质
CN115222790B (zh) * 2022-08-11 2022-12-30 中国科学技术大学 单光子三维重建方法、系统、设备及存储介质
CN115965758A (zh) * 2022-12-28 2023-04-14 无锡东如科技有限公司 一种图协同单目实例三维重建方法

Also Published As

Publication number Publication date
CN112767468B (zh) 2023-11-03
WO2022166412A1 (zh) 2022-08-11

Similar Documents

Publication Publication Date Title
CN112767468B (zh) 基于协同分割与数据增强的自监督三维重建方法及系统
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
Khan et al. Automatic shadow detection and removal from a single image
CN111292264B (zh) 一种基于深度学习的图像高动态范围重建方法
Ye et al. Perceiving and modeling density for image dehazing
CN113298818A (zh) 基于注意力机制与多尺度特征的遥感图像建筑物分割方法
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
Zhang et al. ReX-Net: A reflectance-guided underwater image enhancement network for extreme scenarios
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
US20220343525A1 (en) Joint depth prediction from dual-cameras and dual-pixels
CN115393231B (zh) 一种缺陷图像的生成方法、装置、电子设备和存储介质
Ding et al. Frame-recurrent video inpainting by robust optical flow inference
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN114529832A (zh) 一种预设遥感图像重叠阴影分割模型训练方法及装置
CN104463962A (zh) 基于gps信息视频的三维场景重建方法
CN114155165A (zh) 一种基于半监督的图像去雾方法
Li et al. Underwater Imaging Formation Model‐Embedded Multiscale Deep Neural Network for Underwater Image Enhancement
CN115082966B (zh) 行人重识别模型训练方法、行人重识别方法、装置和设备
CN113537359A (zh) 训练数据的生成方法及装置、计算机可读介质和电子设备
CN114332186A (zh) 一种无监督单视图船舶深度估计方法
CN113822790A (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
Wu et al. Semantic image inpainting based on generative adversarial networks
CN117392180B (zh) 基于自监督光流学习的交互式视频人物跟踪方法及系统
CN117173104B (zh) 一种低空无人机图像变化检测方法及系统
JP7285479B2 (ja) 画像認識装置、及び画像認識プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant