CN113780390B - 基于重构映射一致的无监督密集匹配方法及系统 - Google Patents

基于重构映射一致的无监督密集匹配方法及系统 Download PDF

Info

Publication number
CN113780390B
CN113780390B CN202111008712.4A CN202111008712A CN113780390B CN 113780390 B CN113780390 B CN 113780390B CN 202111008712 A CN202111008712 A CN 202111008712A CN 113780390 B CN113780390 B CN 113780390B
Authority
CN
China
Prior art keywords
reconstruction
loss
consistency
dense matching
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111008712.4A
Other languages
English (en)
Other versions
CN113780390A (zh
Inventor
金飞
王番
官恺
刘智
芮杰
刘潇
郭昊珺
汪建峰
缪毓喆
王淑香
林雨准
魏麟苏
高雪梅
李华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
61363 Troop Of Chinese Pla
Information Engineering University of PLA Strategic Support Force
Original Assignee
61363 Troop Of Chinese Pla
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 61363 Troop Of Chinese Pla, Information Engineering University of PLA Strategic Support Force filed Critical 61363 Troop Of Chinese Pla
Priority to CN202111008712.4A priority Critical patent/CN113780390B/zh
Publication of CN113780390A publication Critical patent/CN113780390A/zh
Application granted granted Critical
Publication of CN113780390B publication Critical patent/CN113780390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于密集匹配技术领域,涉及一种基于重构映射一致的无监督密集匹配方法及系统,构建密集匹配网络,利用无监督损失函数作为目标约束函数来学习输入图像到视差图的映射,其中,无监督损失函数包含重构映射一致性损失函数、平滑损失函数及左右一致性损失函数;收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对密集匹配网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;利用测试优化后的密集匹配网络进行目标场景数据的密集匹配。本发明利用重构映射一致损失并结合平滑和左右一致损失作为无监督目标约束函数,提升网络模型训练收敛速度及精度,使用于密集匹配网络更加稳定,保证密集匹配效果和质量。

Description

基于重构映射一致的无监督密集匹配方法及系统
技术领域
本发明属于密集匹配技术领域,特别涉及一种基于重构映射一致的无监督密集匹配方法及系统。
背景技术
随着人工智能的发展,基于深度学习的有监督密集匹配方法在虚拟、室内以及驾驶等近景数据集上取得了不错的表现。深度学习方法在特征自动提取上具有传统方法无可比拟的优势。随着硬件技术的发展和深度学习理论的完善,这种方法在密集匹配上的潜力逐步显现。M-CNN在密集匹配过程中采用了深度学习方法提取特征,利用卷积神经网络提取到了更为稳健的特征,替代了传统的测度匹配和相关系数匹配等特征提取方法,取得了不错的效果,同时为密集匹配端到端网络的出现奠定了基础;端到端的密集匹配网络以光流预测网络FlowNet为基础,在改进其上采样模块后,应用于密集匹配网络。虽然其在KITTI数据集上的排名并不是当时最靠前的,但为后面其他端到端的网络提供了思路。考虑到DispNet视差图缺乏多尺度信息,且网络不包含视差精化模块,iResNet在DispNet基础上增加了多尺度信息,并采用贝叶斯网络精化视差,进一步提升了匹配精度。这个阶段的网络仍以类似“U-Net”的通用密集匹配网络结构为基础,通过大量的参数拟合密集匹配过程。另一方面,GCNet借鉴传统密集匹配思想,开创了密集匹配专用网络的分支,其基本流程为:特征提取、匹配代价构建、视差计算以及视差软回归四个步骤。该网络的主要贡献包括:①引入了残差块,进一步深挖特征;②首次提出深度学习匹配代价构建和视差计算网络结构;③引入视差软回归(soft argmax),将分类问题变为回归问题,以较小的参数代价取得了不错的效果。随后,PSMNet针对GCNet网络缺乏多尺度信息的问题,利用空洞卷积、金字塔池化(spatial pyramid pooling,SPP)以及堆叠沙漏等多种方式引入全局信息,进一步提升匹配的效果。随后的大多数网络均以PSMNet为原型进行改进;GwcNet在借鉴DispNet的左右特征图相关特征的基础上,提出了分组相关网络,并验证了特征相关信息在密集匹配中的有效性,进一步提升了匹配精度;之后的AcfNet针对密集匹配中的匹配歧义问题,提出了单峰网络在视差软回归过程中,视差概率值应呈现单峰特性。最终通过追加子网络提供单峰信息实现精度提升;而深度剪枝网络针对密集匹配过程中,内存和计算量过大的问题,通过粗匹配方式预估视差的上下限,在保证一定精度的条件下,极大地减少计算时间和内存的消耗。虽然深度学习密集匹配的监督方法在精度已经远超传统方法,但其所需的密集匹配标签数据集获取代价仍是高昂的。
此外,Scene Flow通过虚拟方式从3D投影到2D,虽然标签数据精度极高,但虚拟图像特征与真实图像特征可能存在一定差距;KITTI数据集虽然图像为真实场景,且视差图采用较为精准的激光雷达数据,但获取成本高昂,并且可能存在一定粗差,需要人工进行剔除。此外,激光雷达生成的标签数据为半稠密状,仅有约1/3的点存在真值,在距离较远的天空等区域没有标签数据;而在遥感等领域,标签数据获取、制作困难,流程复杂,且目前没有标准化的商业方法。因此,深度学习监督训练方法的实用化受限于标签数据的获取和制作。相比于监督方法,无监督方法不依赖数据标签,更贴近实用,是发展的必然趋势。无监督方法重点研究损失函数,通过设定目标损失函数来训练网络,以替代标签数据。深度学习无监督的开端可追溯到图像重构损失函数,使网络可以进行端到端的无监督训练,随着重构损失可导这项关键技术突破,深度学习密集匹配无监督方法迎来了极大发展;在重构损失的基础上,引出共视域的概念,将遮挡区域和边缘非重叠区域掩膜掉,从而达到了提升精度的效果。从目前的实验结果来看,无监督方法密集匹配精度与监督方法相比,仍有较大的差距。
发明内容
为此,本发明提供一种基于重构映射一致的无监督密集匹配方法及系统,利用重构映射一致损失并结合平滑和左右一致损失作为无监督目标约束函数,提升网络模型训练收敛速度及精度,使用于密集匹配的网络更加稳定,保证目标场景密集匹配效果和质量。
按照本发明所提供的设计方案,提供一种基于重构映射一致的无监督密集匹配方法,包含:
构建密集匹配网络,利用无监督损失函数作为目标约束函数来学习输入图像到视差图的映射,其中,无监督损失函数包含重构映射一致性损失函数、平滑损失函数及左右一致性损失函数;
收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对密集匹配网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
利用测试优化后的密集匹配网络进行目标场景数据的密集匹配。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,密集匹配网络采用DispNet网络结构,该网络结构包含分别用于输入图像特征提取和视差图分辨率恢复的特征提取端和分辨率恢复端。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,DispNet网络采用DispNetS网络结构,将输入图像左右图在通道维进行叠加来进行特征提取。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,DispNet网络采用DispNetC网络结构,利用孪生网络将输入图像左右图分别进行特征提取并同时提取相关特征图,然后通过叠加来获取输入图像的特征。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,密集匹配网络采用PSMNet网络结构,在输入图像特征提取和匹配代价构建部分增加用于特征卷积融合的金字塔池化模块,并通过三维卷积模块来进行匹配代价的计算。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,密集匹配网络采用PSMNet网络结构,在输入图像特征提取和匹配代价构建部分增加用于特征卷积融合的金字塔池化模块,并通过堆叠沙漏模块来进行匹配代价的计算。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,重构映射一致性损失函数包含用于约束重构图像和输入图像一致的重构损失约束、用于约束多次重构图像和输入图像循环一致的循环重构一致性损失约束、及用于约束首次重构图像和多次重构图像一致性的重构映射一致性约束。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,通过输入图像的一阶差分对视差图的一阶差分加权来获取平滑损失函数;并在重构视差图的重叠区域,利用左右一致性损失函数来约束左右视差图一致性。
作为本发明基于重构映射一致的无监督密集匹配方法,进一步地,所述场景样本数据包含作为训练样本用于预训练的SceneFlow数据集和作为测试样本用于测试调优的KITTI数据集。
进一步地,本发明还提供一种基于重构映射一致的无监督密集匹配系统,包含:模型构建模块、模型调优模块和密集匹配模块,其中,
模型构建模块,用于构建密集匹配网络,利用无监督损失函数作为目标约束函数来学习输入图像到视差图的映射,其中,无监督损失函数包含重构映射一致性损失函数、平滑损失函数及左右一致性损失函数;
模型调优模块,用于收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对密集匹配网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
密集匹配模块,用于利用测试优化后的密集匹配网络进行目标场景数据的密集匹配。
本发明的有益效果:
本发明利用重构映射一致损失并结合平滑和左右一致损失作为无监督目标约束函数,提升网络模型训练收敛速度和精度,同时能使网络更加稳定,使原本平滑损失不收敛的权重能够收敛,,提升密集匹配在虚拟、室内以及驾驶等领域上的应用,具有较好的应用前景。
附图说明:
图1为实施例中基于重构映射一致的无监督密集匹配流程示意;
图2为实施例中无监督网络结构示意;
图3为实施例中DispNet网络结构示意;
图4为实施例中PSMNet网络结构示意;
图5为实施例中重构映射一致损失原理示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
随着人工智能的发展,基于深度学习的有监督密集匹配方法在虚拟、室内以及驾驶等近景数据集上取得了不错的表现,但当前监督方法数据集标签制作困难,而无监督方法精度有待进一步提升。为此,本发明实施例,提供一种基于重构映射一致的无监督密集匹配方法,参见图1所示,包含:
S101、构建密集匹配网络,利用无监督损失函数作为目标约束函数来学习输入图像到视差图的映射,其中,无监督损失函数包含重构映射一致性损失函数、平滑损失函数及左右一致性损失函数;
S102、收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对密集匹配网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
S103、利用测试优化后的密集匹配网络进行目标场景数据的密集匹配。
与监督方法不同,无监督方法不依靠标签数据学习参数,而是依靠无监督损失函数作为约束。其本质是将其作为目标函数以替代数据集标签,帮助网络在训练过程中学习图像到视差图的映射。无监督损失函数依赖左右视差图,因此首先需要通过网络分别构成左右视差图,然后计算左右视差图的损失函数,其网络结构如图2所示,从图中可以看到,输入图像包含原始左右图和水平翻转后的左右图;将两组图像分别输入到网络中,网络结构可以是任何符合接口的密集匹配网络,包括已经实现的DispNetS,DispNetC、PSMNetB以及PSMNetS等网络结构。计算过程中,上下两个网络结构共享权重。由于损失函数的类型众多,图中仅列出了几个较为主要的损失函数,实验时具体采用哪个损失函数以实验为准。本发明实施例中,进一步地,密集匹配网络采用DispNet网络结构,该网络结构包含分别用于输入图像特征提取和视差图分辨率恢复的特征提取端和分辨率恢复端。进一步地,DispNet网络采用DispNetS网络结构,将输入图像左右图在通道维进行叠加来进行特征提取。进一步地,DispNet网络采用DispNetC网络结构,利用孪生网络将输入图像左右图分别进行特征提取并同时提取相关特征图,然后通过叠加来获取输入图像的特征。
DispNet网络由FlowNet网络改进得到,整体结构为全卷积网络,分为特征提取端和分辨率恢复端,中间设置跳层结构,网络可看作U-Net结构。类似于FlowNet的FlowNetS和FlowNetC两个不同版本,DispNet也分为DispNetS和DispNetC两个对应的版本,参见图3所示,DispNetS与DispNetC的不同之处在于特征提取端的前半部分,前者是将左右图在通道维进行叠加,后者采用孪生网络形式,左右图片先分别提取特征,并同时提取相关特征图,二者叠加后继续进行特征提取和分辨率恢复。相较于其他有监督网络,DispNet的网络结简单,运算速度快。
作为本发明实施例中基于重构映射一致的无监督密集匹配方法,进一步地,密集匹配网络采用PSMNet网络结构,在输入图像特征提取和匹配代价构建部分增加用于特征卷积融合的金字塔池化模块,并通过三维卷积模块来进行匹配代价的计算。进一步地,密集匹配网络采用PSMNet网络结构,在输入图像特征提取和匹配代价构建部分增加用于特征卷积融合的金字塔池化模块,并通过堆叠沙漏模块来进行匹配代价的计算。
PSMNet沿用GCNet架构,在特征提取部分和匹配代价构建部分之间增加了金字塔池化模块,并在代价计算过程利用堆叠沙漏模块替换传统的三维卷积模块。金字塔池化部分通过将提取后的特征图分别进行64×64、32×32、16×16、8×8的池化,其结果与未池化的特征图以及前一部分的跳层共同组成,再经过卷积融合,形成匹配代价构建所需的特征图;沙漏模块具有特征位置相互参考的功能,通过多个沙漏模型的堆叠,效果优于普通三维卷积。参见图4所示,PSMNet在其消融实验过程中存在多个版本,本案实施例中可选用视差计算部分为三维卷积模块的PSMNetB,另一个是采用堆叠沙漏模块的PSMNetS。
作为本发明实施例中基于重构映射一致的无监督密集匹配方法,进一步地,重构映射一致性损失函数包含用于约束重构图像和输入图像一致的重构损失约束、用于约束多次重构图像和输入图像循环一致的循环重构一致性损失约束、及用于约束首次重构图像和多次重构图像一致性的重构映射一致性约束。
损失函数包括重构损失函数、平滑损失函数以及左右一致性损失函数。其总损失函数可定义为:
C=wcmapCcmap+wdsCds+wlrClr
式中,w为损失函数权重;C表示损失函数;下标cmap表示循环重构映射一致,ds表示平滑,lr表示左右一致。
为便于损失函数的说明,设I为输入图像矩阵,D为视差预测图,下标L、R分别表示左右图像,则左视差图DL和输入图像IL,IR之间的关系可表示为
DL=FNet(θ;IL,IR)
式中:FNet为有监督网络结构,θ表示网络的参数。
将原始图像作水平方向的翻转变换,变换后的左图变为右图,右图变为左图,分别输入到网络中,则可以生成水平方向翻转后的右视差图,再做一次翻转变换后,得到右视差图,其过程可通过如下公式表示:
DR=Ffilp<FNet[θ;Ffilp(IL),Ffilp(IR)]>
式中:Ffilp为水平方向翻转函数。
重构损失函数的思想是利用右图IR和左视差图DL通过STN网络重构左图
Figure BDA0003237845170000051
之后,比较左图IL和重构左图/>
Figure BDA0003237845170000052
之间的相似度,同理可比较右图IR和重构右图/>
Figure BDA0003237845170000053
重构过程可描述为
Figure BDA0003237845170000054
式中,Fgrid表示由视差图生成采样格网的函数;上标wrap表示重构。
理论上来说,准确的视差值可使重构的图像和原始图像一致。
Figure BDA0003237845170000055
式中:FSSIM表示图像相似度函数;α为权重调节因子,通常设置为0.85。
重构损失约束了输入图像I和利用预测视差图D一次重构后图像Iwrap的一致性;而循环重构一致损失利用了输入图像I和二次重构后图像Iwrap2的循环一致性。
Figure BDA0003237845170000061
Ccap=Favg(|D-Dwrap|)
式中,wrap1和wrap2分别表示一次重构和二次重构;Fgrid表示由视差图生成采样格网的函数;FSTN表示重构过程。IL
Figure BDA0003237845170000062
IR和/>
Figure BDA0003237845170000063
均成对出现,为简便表达,统一以I和Iwrap的形式表达。
重构约束和循环重构约束仅考虑了输入图像I和一次重构图像Iwrap、输入图像I和二次重构图像之间的一致性Iwrap2,但是未考虑到一次重构图像Iwrap和二次重构图像Iwrap2之间的一致性,因此需要进一步在原损失函数基础上增加该中间监督。将一次重构图像Iwrap和二次重构图像Iwrap2的一致性定义为重构映射一致性。
进一步比较可知,重构损失仅用到了左(右)图,预测右(左)视差图和右(左)图;循环重构一致损失仅用到了左(右)图,预测左视差图、预测右视差图;而重构映射一致同时用到了左右图像,预测左右视差图,因此约束更加严格。将三者结合起来,可以得到更严格的约束,从而达到提升匹配精度的目的。为了更加清晰展现该过程,以左图为例,将上述思想用图5示。从图中可以看出,该损失函数由三部分组成,即重构损失Cap、循环重构一致损失Ccap、以及重构映射一致损失Cmap。该过程利用了左图、右图、预测右视差图、预测左视差图、一次重构右图、一次重构左图以及二次重构左图,约束条件更加严格。
将该损失函数命名为循环重构映射一致损失,用公式可以表述为:
Ccmap=Cap+Ccap+Cmap
其中,Cap表示重构损失函数;Ccap表示循环重构一致损失函数;Cmap表示重构映射一致损失函数,其过程定义为:
Cmap=Favg(|Iwrap-Iwrap2|)
作为本发明实施例中基于重构映射一致的无监督密集匹配方法,进一步地,通过输入图像的一阶差分对视差图的一阶差分加权来获取平滑损失函数;并在重构视差图的重叠区域,利用左右一致性损失函数来约束左右视差图一致性。
重构损失虽然能够对图像形成一定约束,但是在图像的重复纹理、弱纹理以及无纹理区域,该损失函数无法及时发现误匹配,因此,需要通过平滑损失函数辅助约束。平滑损失函数的思想利用原始图像对视差图进行约束,其核心思想是通过图像的纹理变化来约束视差的变化,即在视差变化大的区域,图像像素值也应当有较大变化。平滑损失函通过原图像I的一阶差分对视差图D的一阶差分进行加权得到,加权的形式为e的负指数形式,其损失函数定义为
Figure BDA0003237845170000071
其中,差分公式如下,
Figure BDA0003237845170000072
式中:M表示二维矩阵;d表示方向,包括x,y两个方向。
与重构图像的方法类似,重构视差图通过STN网络进行构建,其定义为
Figure BDA0003237845170000073
在重叠区域,左右视差图理论上应当是一致的,因此可以通过左右一致性进行约束,其定义为
Clr=Favg(|D-Dwrap|)
作为本发明实施例中基于重构映射一致的无监督密集匹配方法,进一步地,所述场景样本数据包含作为训练样本用于预训练的SceneFlow数据集和作为测试样本用于测试调优的KITTI数据集。本案实施例中,可以根据实际应用需求,例如计算机视觉的自动驾驶获取深度信息和测绘里航空摄影测量生产,可使用驾驶场景数据集是KITTI2012和KITTI2015,航空数据集是Vaihingen和WHU数据集。
SceneFlow数据集在密集匹配领域占有重要的一席之地,许多经典网络在应用到真实场景之前,均会在该数据集上进行预训练。该数据集原包含39000对双目图像,后期经过筛选,实际采用的图像数为35858对。完整的数据集包含彩色双目图像、语义分割图、光流图、视差图、视差变化图、运动边界图以及相机数据。实施例中,可使用其中的彩色双目图像和视差图。该数据集由3个子数据集构成,分别为Flying Things3D、Driving和Monkaa数据子集。KITTI数据集为真实场景的汽车驾驶数据集,包含KITTI2012和KITTI2015两个子集,前者包含194对训练图像和195对测试图像,图像尺寸为1226像素×370像素;后者包含200对训练图像和200对测试图像,图像尺寸为1242像素×375像素。训练调优算法可设计为如下:
步骤1:输入图像到网络结构
步骤1.1:入读取输入的图像,格式通常为pfm,png,tif等,调整通道位置;
步骤1.2:输入图像归一化,将数据集图像灰度值分布变为均值和方差均为1的正太分布;
步骤1.3:将生成的图像输入到网络中。
步骤2:利用深度学习密集匹配网络生成视差图
网络结构可采用端到端的网络结构,如DispNetS、DispNetC、iResNet、GCNet、PSMNetB以及PSMNetS等,输入的图像经过网络计算,生成相应的视差图。
步骤3:计算损失
计算损失包含循环重构映射一致损失、平滑损失和左右一致损失。其中,循环重构映射一致包含重构损失、循环重构损失、重构映射一致损失三个部分。
步骤3.1:计算重构损失
步骤3.2:计算循环重构损失
步骤3.3:计算重构映射一致损失
步骤3.4:将步骤3.1、步骤3.2和步骤3.3的结果相加,组成重构损失
步骤3.5:计算平滑损失
步骤3.6:计算左右一致损失
步骤3.7:将步骤3.4、步骤3.5和步骤3.6的结果按照权重0.1:0.1:1相加。
步骤4:反向传播更新参数。
进一步地,基于上述的方法,本发明实施例还提供一种基于重构映射一致的无监督密集匹配系统,包含:模型构建模块、模型调优模块和密集匹配模块,其中,
模型构建模块,用于构建密集匹配网络,利用无监督损失函数作为目标约束函数来学习输入图像到视差图的映射,其中,无监督损失函数包含重构映射一致性损失函数、平滑损失函数及左右一致性损失函数;
模型调优模块,用于收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对密集匹配网络进行预训练,并利用测试样本对预训练后的网络进行测试优化;
密集匹配模块,用于利用测试优化后的密集匹配网络进行目标场景数据的密集匹配。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
为验证本案方案有效性,下面结合试验数据做进一步解释说明:
实验在Windows10操作系统下进行,通过Anaconda创建虚拟环境,采用PyTorch深度学习框架,显卡为1080Ti,显存11G。由于显存限制,参数batchsize通过梯度累加模拟实现,设置为8,优化器为Adam,β1=0.9,β2=0.999。由于密集匹配网络对内存需求大,在训练过程中需要存储梯度,因此训练过程将原始图像随机裁剪为512×256大小的图片,该操作一方面可以节约内存,另一方面能够增强数据集。
参数指标分别为终点误差(End Point Error)和3像素误差(3Pixel Error)。EPE的定义为所有像素预测视差与真实值之差绝对值的平均值;3PE为预测值与真实值误差大于3像素占图像所有参与预测点总数的百分比。两个标准均为值越小,匹配效果越好。图像评价范围为裁剪非重叠边缘后的区域。
为测试该方法的有效性,设计实验进行验证。实验网络结构选用PSMNetB,损失函数选用Cap+Cds1+Clr经典组合方式作为对照组。
不同的循环一致性对损失函数的影响如表1所示:
表1不同循环损失对损失函数的影响
Figure BDA0003237845170000091
实验结果表明,在0.1Cap+0.1Clr+Cds1s损失函数组合的基础上,增加重构循环一致损失,并不能有效提高匹配精度,而在结合本文提出的重构映射一致损失后,精度有较大幅度提升,在KITTI的两个数据集上,EPE和3PE比仅使用重构损失函数的情况下降了5.75%和4.89%。
此外,作为参照组的0.1Cap+0.1Clr+Cds1组合在监督方法的预训练模型基础上进行微调时,精度会有较大幅度提升,3PE从5.15%降低至4.72%。说明在监督方法下的预训练模型对无监督方法有促进作用。
预训练对精度具有提升作用,说明在初值较好的条件下,重构映射一致能够有效提升精度。若模型未经预训练,初始值较差,模型精度如何是值得研究的。因此,在未经预训练的条件下,直接训练模型,以验证重构映射一致性,左右映射一致性对匹配精度的提升作用。结果如表2:
表2预训练对循环一致性的影响
Figure BDA0003237845170000092
对比表1和表2可知,重构映射一致性不但没有提升,反而导致精度下降;在迁移训练条件下,循环重构一致性有较大幅度提升。这说明,重构映射一致性对视差图的初始精度要求较高。
针对重构映射一致性损失函数的组合0.1Ccap+Cds1+0.1Clr,在预训练的模型上进行了微调,其结果如表3:
表3网络结构对循环一致性的影响
Figure BDA0003237845170000093
通过实验可以得网络结构对匹配精度具有一定影响,PSMNetS网络结构性能最优,其次是PSMNetB,最后是DispNetC。
针对在迁移训练条件下,映射一致对不同比例损失函数的提升效果如表4所示:
表4不同平滑比例对精度的影响
Figure BDA0003237845170000101
从表中可以看出,经过迁移学习的网络更具有稳健性,将平滑系数增至100、1000倍时,网络仍能够收敛,再一次印证了迁移学习能够使网络鲁棒性更强。此外,从实验结果可以看出,在迁移训练条件下,平滑权重在100时能够获得更好的匹配结果。
通过以上数据表明:迁移学习条件下,循环重构映射一致损失对精度有提升作用,EPE和3PE平均在两个KITTI数据集上平均下降5.75%和4.89%;而在直接训练条件下,效果甚微,甚至会降低精度;在无监督条件下,网络结构对匹配精度具有一定影响。在参与测试的网络结构中,PSMNetS效果最佳;利用监督方法训练的模型作为无监督方法的预训练模型时可使网络提升精度,收敛速度增加,同时能使网络更加稳定,使原本平滑损失不收敛的权重能够收敛,能够保证密集匹配效果和质量。
基于上述的系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种基于重构映射一致的无监督密集匹配方法,其特征在于,包含:
构建密集匹配网络,利用无监督损失函数作为目标约束函数来学习输入图像到视差图的映射,其中,无监督损失函数包含重构映射一致性损失函数、平滑损失函数及左右一致性损失函数;重构映射一致性损失函数包含用于约束重构图像和输入图像一致的重构损失约束、用于约束多次重构图像和输入图像循环一致的循环重构一致性损失约束、及用于约束首次重构图像和多次重构图像一致性的重构映射一致性约束;并通过输入图像的一阶差分对视差图的一阶差分加权来获取平滑损失函数;在重构视差图的重叠区域,利用左右一致性损失函数来约束左右视差图一致性;
收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对密集匹配网络进行预训练,并利用测试样本对预训练后的密集匹配网络进行测试优化;其中,所述场景样本数据包含作为训练样本用于预训练的SceneFlow数据集和作为测试样本用于测试调优的KITTI数据集;预训练过程包含:首先,读取输入的训练样本的图像,调整通道位置,将输入的训练样本的图像归一化,将训练样本的数据集图像灰度值分布变为均值和方差均为1的正态分布,将处理后生成的图像输入到密集匹配网络中;接着,密集匹配网络采用端到端的网络结构,输入的图像经过密集匹配网络计算,生成相应的视差图;然后,计算重构损失、循环重构损失和重构映射一致损失,将重构损失、循环重构损失和重构映射一致损失的结果相加来组成新的重构损失,并计算平滑损失和左右一致损失,将组成的新的重构损失和平滑损失及左右一致损失的结果按照权重0.1:0.1:1相加,以获取网络训练损失;依据网络训练损失反向传播更新密集匹配网络参数;
利用测试优化后的密集匹配网络进行目标场景数据的密集匹配。
2.根据权利要求1所述的基于重构映射一致的无监督密集匹配方法,其特征在于,密集匹配网络采用DispNet网络结构,该网络结构包含分别用于输入图像特征提取和视差图分辨率恢复的特征提取端和分辨率恢复端。
3.根据权利要求2所述的基于重构映射一致的无监督密集匹配方法,其特征在于,DispNet网络采用DispNetS网络结构,将输入图像左右图在通道维进行叠加来进行特征提取。
4.根据权利要求2所述的基于重构映射一致的无监督密集匹配方法,其特征在于,DispNet网络采用DispNetC网络结构,利用孪生网络将输入图像左右图分别进行特征提取并同时提取相关特征图,然后通过叠加来获取输入图像的特征。
5.根据权利要求1所述的基于重构映射一致的无监督密集匹配方法,其特征在于,密集匹配网络采用PSMNet网络结构,在输入图像特征提取和匹配代价构建部分增加用于特征卷积融合的金字塔池化模块,并通过三维卷积模块来进行匹配代价的计算。
6.根据权利要求1所述的基于重构映射一致的无监督密集匹配方法,其特征在于,密集匹配网络采用PSMNet网络结构,在输入图像特征提取和匹配代价构建部分增加用于特征卷积融合的金字塔池化模块,并通过堆叠沙漏模块来进行匹配代价的计算。
7.一种基于重构映射一致的无监督密集匹配系统,其特征在于,包含:模型构建模块、模型调优模块和密集匹配模块,其中,
模型构建模块,用于构建密集匹配网络,利用无监督损失函数作为目标约束函数来学习输入图像到视差图的映射,其中,无监督损失函数包含重构映射一致性损失函数、平滑损失函数及左右一致性损失函数;重构映射一致性损失函数包含用于约束重构图像和输入图像一致的重构损失约束、用于约束多次重构图像和输入图像循环一致的循环重构一致性损失约束、及用于约束首次重构图像和多次重构图像一致性的重构映射一致性约束;并通过输入图像的一阶差分对视差图的一阶差分加权来获取平滑损失函数;在重构视差图的重叠区域,利用左右一致性损失函数来约束左右视差图一致性;
模型调优模块,用于收集场景样本数据,并将场景样本数据划分为训练样本和测试样本;利用训练样本对密集匹配网络进行预训练,并利用测试样本对预训练后的密集匹配网络进行测试优化;其中,所述场景样本数据包含作为训练样本用于预训练的SceneFlow数据集和作为测试样本用于测试调优的KITTI数据集;预训练过程包含:首先,读取输入的训练样本的图像,调整通道位置,将输入的训练样本的图像归一化,将训练样本的数据集图像灰度值分布变为均值和方差均为1的正态分布,将处理后生成的图像输入到密集匹配网络中;接着,密集匹配网络采用端到端的网络结构,输入的图像经过密集匹配网络计算,生成相应的视差图;然后,计算重构损失、循环重构损失和重构映射一致损失,将重构损失、循环重构损失和重构映射一致损失的结果相加来组成新的重构损失,并计算平滑损失和左右一致损失,将组成的新的重构损失和平滑损失及左右一致损失的结果按照权重0.1:0.1:1相加,以获取网络训练损失;依据网络训练损失反向传播更新密集匹配网络参数;
密集匹配模块,用于利用测试优化后的密集匹配网络进行目标场景数据的密集匹配。
CN202111008712.4A 2021-08-31 2021-08-31 基于重构映射一致的无监督密集匹配方法及系统 Active CN113780390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111008712.4A CN113780390B (zh) 2021-08-31 2021-08-31 基于重构映射一致的无监督密集匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111008712.4A CN113780390B (zh) 2021-08-31 2021-08-31 基于重构映射一致的无监督密集匹配方法及系统

Publications (2)

Publication Number Publication Date
CN113780390A CN113780390A (zh) 2021-12-10
CN113780390B true CN113780390B (zh) 2023-06-09

Family

ID=78840121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008712.4A Active CN113780390B (zh) 2021-08-31 2021-08-31 基于重构映射一致的无监督密集匹配方法及系统

Country Status (1)

Country Link
CN (1) CN113780390B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111464804A (zh) * 2020-04-08 2020-07-28 北京小米松果电子有限公司 一种全向视差视图合成方法、装置及存储介质
CN112270692A (zh) * 2020-10-15 2021-01-26 电子科技大学 一种基于超分辨的单目视频结构和运动预测的自监督方法
CN112288690A (zh) * 2020-10-14 2021-01-29 武汉大学 一种融合多尺度多层级特征的卫星影像密集匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429805B2 (en) * 2019-10-29 2022-08-30 Samsung Electronics Co., Ltd. System and method for deep machine learning for computer vision applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111464804A (zh) * 2020-04-08 2020-07-28 北京小米松果电子有限公司 一种全向视差视图合成方法、装置及存储介质
CN112288690A (zh) * 2020-10-14 2021-01-29 武汉大学 一种融合多尺度多层级特征的卫星影像密集匹配方法
CN112270692A (zh) * 2020-10-15 2021-01-26 电子科技大学 一种基于超分辨的单目视频结构和运动预测的自监督方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的立体影像密集匹配方法综述;季顺平等;《武汉大学学报(信息科学版)》;第46卷(第2期);193-202 *

Also Published As

Publication number Publication date
CN113780390A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN109658445A (zh) 网络训练方法、增量建图方法、定位方法、装置及设备
CN111462329A (zh) 一种基于深度学习的无人机航拍影像的三维重建方法
Xiao et al. Joint affinity propagation for multiple view segmentation
Chen et al. Scenedreamer: Unbounded 3d scene generation from 2d image collections
Hua et al. Depth estimation with convolutional conditional random field network
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113780389B (zh) 基于一致性约束的深度学习半监督密集匹配方法及系统
CN110197505A (zh) 基于深度网络及语义信息的遥感图像双目立体匹配方法
CN110070574A (zh) 一种基于改进PSMNet的双目视觉立体匹配算法
CN113593001A (zh) 目标对象三维重建方法、装置、计算机设备和存储介质
CN106408531A (zh) 基于gpu加速的层次化自适应三维重建方法
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
CN109948575A (zh) 超声图像中眼球区域分割方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
Lin et al. Immesh: An immediate lidar localization and meshing framework
Wei et al. Flow-based gan for 3d point cloud generation from a single image
Bang et al. DA-FDFtNet: dual attention fake detection fine-tuning network to detect various AI-generated fake images
CN113780390B (zh) 基于重构映射一致的无监督密集匹配方法及系统
CN113807417B (zh) 基于深度学习视野自选择网络的密集匹配方法及系统
CN110675381A (zh) 一种基于串行结构网络的本征图像分解方法
Li et al. Generative tracking of 3D human motion in latent space by sequential clonal selection algorithm
Zeng et al. 3D Reconstruction of buildings based on transformer-MVSNet
CN110147801B (zh) 一种基于向量的sift点集平滑匹配方法
Liang et al. Building placements in urban modeling using conditional generative latent optimization
Zhang et al. Weakly supervised monocular depth estimation method based on stereo matching labels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant