CN114782507B - 一种基于无监督学习的非对称双目立体匹配方法及系统 - Google Patents

一种基于无监督学习的非对称双目立体匹配方法及系统 Download PDF

Info

Publication number
CN114782507B
CN114782507B CN202210695991.4A CN202210695991A CN114782507B CN 114782507 B CN114782507 B CN 114782507B CN 202210695991 A CN202210695991 A CN 202210695991A CN 114782507 B CN114782507 B CN 114782507B
Authority
CN
China
Prior art keywords
stereo matching
binocular
training
binocular stereo
asymmetric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210695991.4A
Other languages
English (en)
Other versions
CN114782507A (zh
Inventor
熊志伟
陈西豪
张越一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210695991.4A priority Critical patent/CN114782507B/zh
Publication of CN114782507A publication Critical patent/CN114782507A/zh
Application granted granted Critical
Publication of CN114782507B publication Critical patent/CN114782507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Abstract

本发明公开了一种基于无监督学习的非对称双目立体匹配方法及系统,以无监督的方式可以实现非对称双目立体匹配,能在具有强烈非对称性的多摄混合成像系统训练出有效的双目立体匹配神经网络,从而完成立体匹配;且不依赖于真实的视差值,减少了数据集采集中使用昂贵的激光雷达扫描仪的需求,简化了基于深度学习的非对称双目立体匹配方法的实现难度,能在具有新配置的多摄混合成像系统快速调整,具备更强的泛化能力。

Description

一种基于无监督学习的非对称双目立体匹配方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于无监督学习的非对称双目立体匹配方法及系统。
背景技术
由于拍照要求不断提升,多摄混合成像系统的数量与日俱增。不同组合的多摄混合成像系统记录了场景中不同维度的信息,为计算机视觉领域带来了更多应用的可能性。受双目视差影响,多摄混合成像系统中的不同镜头所拍摄的非对称照片难以对齐,限制了多摄混合成像系统相关的应用。因此,非对称双目图像立体匹配方法在多摄混合成像系统相关应用中不可或缺,该技术的目标是从给定的非对称双目图像中估计双目图像中像素点之间的视差。
近年来,随着以卷积神经网络为代表的深度学习方法的兴起,基于神经网络的双目立体匹配方法算法逐渐成为主流,并且性能远远超过了传统的非学习方法。深度学习方法通常依赖于使用带真实视差值的双目图像数据集来有监督地训练一个精心设计的双目立体匹配神经网络,以实现性能上的显著提升。然而,多摄混合成像系统通过组合不同种类相机以满足不同条件下的拍照需求,例如使用彩色相机和黑白相机的组合来提升暗光或者夜景环境下的影响拍摄质量、使用广角相机和长焦相机来实现光学变焦等。因此,为了使用此类有监督的双目立体匹配方法,不同组合下的多摄混合成像系统总是需要收集特定的非对称双目数据集及其对应的真实视差值来训练神经网络。但真实视差值的收集需要使用昂贵的激光雷达扫描仪,因而减弱或去除此类方案对真实视差值的依赖是目前亟需解决的问题。
基于无监督学习的双目立体匹配方法无需真实视差值来训练双目立体匹配神经网络,而是利用光度定常性(photometric consistency)假设以设计图像重建损失(imagereconstruction loss)来训练网络。然而,由于多摄混合成像系统使用不同的相机采集图像,其双目图像通常为非对称的,即双目图像上记录同一个场景点所发射出光线的两个像素通常展现了不同的强度或者颜色。该特性使得光度定常性假设无法成立,进而较大地削弱了基于无监督的双目立体匹配方法在非对称双目图像上的性能。
因此,为了维持非对称双目图像上的立体匹配性能,并摆脱对真实视差值的依赖,需要一种基于无监督学习的非对称双目立体匹配方法。
发明内容
本发明的目的是提供一种基于无监督学习的非对称双目立体匹配方法及系统,能够以无监督的方式可以实现非对称双目立体匹配;且不依赖于真实的视差值,减少了数据集采集中使用昂贵的激光雷达扫描仪的需求,简化了基于深度学习的非对称双目立体匹配方法的实现难度,具备更强的泛化能力。
本发明的目的是通过以下技术方案实现的:
一种基于无监督学习的非对称双目立体匹配方法,包括:
利用非对称双目图像数据集构造训练数据集;
利用所述训练数据集使用自增强的学习策略对预先构造的双目立体匹配神经网络进行训练,训练过程包括预训练与逐步微调两个部分;预训练时,基于双目立体匹配神经网络进行双目立体匹配预测出视差图,并构建损失函数更新所述双目立体匹配神经网络的网络参数,预训练完毕后进入逐步微调阶段;逐步微调阶段包含多个微调阶段,当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调;
利用训练后的双目立体匹配神经网络,对多摄混合成像系统的任意非对称双目图像进行双目立体匹配预测出视差图。
一种基于无监督学习的非对称双目立体匹配系统,包括:
训练数据集构造单元,用于利用非对称双目图像数据集构造训练数据集;
无监督学习单元,用于利用所述训练数据集使用自增强的学习策略对预先构造的双目立体匹配神经网络进行训练,训练过程包括预训练与逐步微调两个部分;预训练时,基于双目立体匹配神经网络进行双目立体匹配预测出视差图,并构建损失函数更新所述双目立体匹配神经网络的网络参数,预训练完毕后进入逐步微调阶段;逐步微调阶段包含多个微调阶段,当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调;
非对称双目立体匹配单元,用于利用训练后的双目立体匹配神经网络,对多摄混合成像系统的任意非对称双目图像进行双目立体匹配预测出视差图。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,(1)不依赖于真实的视差值,减少了数据集采集的成本;(2)能在具有新配置的多摄混合成像系统快速调整,以实现更好的泛化;(3)具有自增强的无监督学习过程,能在具有强烈非对称性的多摄混合成像系统训练出有效的双目立体匹配神经网络,从而完成立体匹配。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于无监督学习的非对称双目立体匹配方法的流程图;
图2为本发明实施例提供的一种基于无监督学习的非对称双目立体匹配系统的示意图;
图3为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种基于无监督学习的非对称双目立体匹配方法及系统进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
本发明实施例提供一种基于无监督学习的非对称双目立体匹配方法,如图1所示,其主要包括:
步骤1、利用非对称双目图像数据集构造训练数据集。
本发明实施例中,可以利用指定多摄混合成像系统进行图像采集,并以此构造训练数据集。
步骤2、利用所述训练数据集使用自增强的学习策略对预先构造的双目立体匹配神经网络进行训练。
本发明实施例中,采用自增强学习策略的无监督学习方式进行网络训练,训练过程包括预训练与逐步微调两个部分。
预训练时,基于双目立体匹配神经网络进行双目立体匹配预测出视差图,并构建损失函数更新所述双目立体匹配神经网络的网络参数,预训练完毕后进入逐步微调阶段。
逐步微调阶段包含多个微调阶段,当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调。
步骤3、利用训练后的双目立体匹配神经网络,对多摄混合成像系统的任意非对称双目图像进行双目立体匹配预测出视差图。
本发明实施例中,利用训练后的双目立体匹配神经网络可以对任意非对称双目图像进行双目立体匹配。
优选的,还可以利用前述步骤1中的非对称双目图像数据集构造验证数据集,调整超参数后,使用所述验证数据集对训练后的双目立体匹配神经网络进行验证,选出最优网络参数,由使用最优网络参数的双目立体匹配神经网络预测多摄混合成像系统的任意非对称双目图像的视差图。其中,所述超参数主要包括如学习率、损失函数权重等。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的一种基于无监督学习的非对称双目立体匹配方法进行详细描述。
一、构造数据集。
本发明实施例中,利用多摄混合成像系统进行图像采集,并以此获得各类数据集,主要包括:
1、对选定的多摄混合成像系统进行标定,并获取的双目极线矫正参数。
本发明实施例中,多摄混合成像系统的具体形式可根据需求进行选择,本发明不做限定。
本发明实施例中,主要对多摄混合成像系统的双目相机进行标定,获取其双目极线矫正参数,包括:内外参数、镜头畸变参数、平移与旋转矩阵。
示例性的,可以采用张氏标定法(Zhang Z. A flexible new technique forcamera calibration[J]. IEEE Transactions on pattern analysis and machineintelligence, 2000, 22(11): 1330-1334.)完成标定。随后利用标定参数,估计双目极线矫正参数用于双目极线矫正,使得矫正后的双目图像在竖直方向上没有视差,可以采用文献(Papadimitriou D V, Dennis T J. Epipolar line estimation and rectificationfor stereo image pairs[J]. IEEE transactions on image processing, 1996, 5(4):672-676.)的方法。
2、利用选定的多摄混合成像系统构建非对称双目图像数据集,并进行数据集划分。
利用选定的多摄混合成像系统采集若干组同步的原始双目图像,并使用所述双目极线矫正参数进行极线矫正,构建非对称双目图像数据集。从所述非对称双目图像数据集中取出一部分作为训练数据,对所述训练数据进行数据扩增构造出训练数据集;双目图像数据集中的剩余部分则作为验证数据集。
示例性的,可以按照9:1的比例对所述非对称双目图像数据集进行,9成数据作为训练数据,剩余的1成数据作为验证数据集。
本发明实施例中,数据扩增主要为了增强数据多样性,数据扩增方式包括:随机缩放、随机上下翻转、随机置换双目左右视图以及随机颜色变换等。具体地,随机缩放是指对双目左右视图同时进行随机比例裁剪并调整回原始图像分辨率;随机上下翻转是指对双目左右视图同时垂直翻转;随机置换双目左右视图是指置换左右视图并同时水平翻转;随机颜色变换包括随机伽马变换、随机亮度变换以及随机色调变换。实际的数据扩增包括上述的一种或多种方式,以进一步增强数据多样性。
二、构造双目立体匹配神经网络。
本发明实施例中,构造的双目立体匹配神经网络主要包括:特征提取模块
Figure 934948DEST_PATH_IMAGE001
(feature extractor),代价体构建模块(cost volume constructor),代价体正则模块
Figure 383247DEST_PATH_IMAGE002
(cost volume regularizer)以及视差估计模块(disparity estimator)。
1、特征提取模块。
本发明实施例中,所述特征提取模块用于将非对称双目图像数据映射至特征空间,获得非对称双目图像数据的图像特征,包括左视图的图像特征与右视图的图像特征。
本发明实施例中,所述特征提取模块,可以基于共享或独立的特征提取器实现。示例性的,可以使用一种类似于ResNet的卷积神经网络作为特征提取模块。
2、代价体构建模块。
本发明实施例中,所述代价体构建模块,用于结合非对称双目图像数据的图像特征构建代价体。例如,可以对双目图像左、右视图的图像特征计算其在不同视差下的相似度量(如相关操作,即两个特征向量的点积)、距离度量(如欧式距离)或者堆叠在不同视差下的左、右视图的图像特征向量,来构建代价体。
示例性的,针对左视图的图像特征中某个特征点A,可以将该特征点A的特征向量与右视图在不同视差下的像素点的特征向量堆叠(concatenation),构成D×2C的代价分布,其中D为视差范围大小、C为图像特征的维度大小。通过对左视图中所有像素进行上述操作,最终形成H×W×D×2C的代价体,其中H、W分别为特征图(即图像特征)的长、宽。
3、代价体正则模块。
本发明实施例中,用于结合代价体计算不同非对称双目图像数据中不同像素的视差概率分布;具体的,可以在代价体的不同位置、不同视差水平下,进行上下文信息聚合、代价正则,进而利用softmax激活函数计算出不同像素的视差概率分布。正则模块结构需根据代价体的维度进行选择,如基于2D卷积或者3D卷积的神经网络结构。
示例性的,针对H×W×D×2C的代价体,选择3D卷积层堆叠形成的代价体正则模块对代价体进行概率分布回归。
4、视差估计模块。
本发明实施例中,所述视差估计模块,用于根据不同像素的视差概率分布预测非对称双目图像数据的视差图;具体的:可以根据视差概率分布,预测出各像素的视差值,构成视差图,再将视差图上采样至输入图像的分辨率。
示例性的,可以采用soft argmin方式根据视差概率分布计算视差期望值作为视差估计值;soft argmin为行业专有名称,argmin指获取使目标函数达到最小值的参数,soft表示可微分。
三、自增强学习策略的无监督学习。
如之前的介绍,常规的有监督学习策略需要双目图像数据集具有真实的视差值,限制了基于深度学习的双目立体匹配算法的应用。尤其当多摄混合成像系统通常具有不同的相机组合,无法将某个特定的多摄混合成像系统采集的双目图像数据集推广到其他系统上。常规的无监督学习策略利用光度定常性假设,针对双目图像构建图像重建损失,进而不依赖于真实的视差值即可训练双目立体匹配神经网络。但多摄混合成像系统使用不同的相机采集图像,其双目图像通常为非对称的,使得常规的无监督学习策略无法稳定地推广到该类系统上。对此,本发明提出一种自增强学习策略,实现了在多摄混合成像系统上采集的非对称双目图像数据集上进行无监督地训练双目立体匹配神经网络。主要包括如下部分:
1、基于图像重建损失预训练双目立体匹配神经网络。
本发明实施例中,双目立体匹配神经网络的预训练在图像重建损失函数的约束下完成。具体的:
(1)将训练数据集中的每一非对称双目图像数据
Figure 694143DEST_PATH_IMAGE003
分别送入所述双目立体匹配神经网络进行双目立体匹配,预测出相应的视差图d L
Figure 666516DEST_PATH_IMAGE004
其中,x L 表示左视图,x R 表示右视图;
Figure 746467DEST_PATH_IMAGE005
表示预训练时网络参数为
Figure 647558DEST_PATH_IMAGE006
的双目立体匹配神经网络。
(2)利用视差图d L 进行视角重投影,即利用视差图d L 将指定视图x A 对齐到目标视图x B 的视角获得对齐视图
Figure 180171DEST_PATH_IMAGE007
,表示为:
Figure 706967DEST_PATH_IMAGE008
其中,当A=R且B=L时,右视图x R 为指定视图,左视图x L 为目标视图,表示将右视图x R 对齐到左视图x L 的视角;当A=L且B=R时,左视图x L 为指定视图,右视图x R 为目标视图,表示将左视图x L 对齐到右视图x R 的视角。
以A=R,B=L为例,即利用视差图d L 将右视图x R 对齐到左视图x L 的视角获得对齐视图
Figure 890692DEST_PATH_IMAGE009
,表示为:
Figure 211952DEST_PATH_IMAGE010
其中,Warp(.)表示扭曲变形函数,用于使用视差图对指定视图图像进行变形,以对齐到目标视角。
(3)利用所述对齐视图
Figure 231861DEST_PATH_IMAGE011
构造图像重建损失函数,表示为:
Figure 250764DEST_PATH_IMAGE012
(4)利用所述图像重建损失函数训练所述双目立体匹配神经网络,更新网络参数,将预训练后双目立体匹配神经网络的网络参数记为
Figure 102045DEST_PATH_IMAGE013
。此部分所涉及的网络参数更新方式可参照现有技术实现,本发明不不做赘述。
2、基于特征重建损失微调双目立体匹配神经网络。
由于非对称双目图像的光度不定常问题,图像重建损失可以视为一种带噪声的监督信号。而依据“利用带噪标签进行学习”的理论(Maennel H, Alabdulmohsin I M,Tolstikhin I O, et al. What do neural networks learn when trained with randomlabels [J]. Advances in Neural Information Processing Systems, 2020, 33:19693-19704.),当利用带噪标签进行网络参数学习时,深层的网络会受到剧烈的影响,而浅层的网络仍然能够学到有意义的参数。因此,预训练的双目立体匹配神经网络
Figure 797469DEST_PATH_IMAGE014
的特征提取模块
Figure 616258DEST_PATH_IMAGE015
能提取有意义的、鉴别性的(discriminative)特征,用以构建代价体。在非对称的双目图像中,鉴别性特征意味着能够将左、右视图中记录同一个场景点(P)所发射出光线的两个像素映射到相同的特征向量,即:
Figure 422540DEST_PATH_IMAGE016
Figure 331590DEST_PATH_IMAGE017
Figure 948647DEST_PATH_IMAGE018
其中,
Figure 5465DEST_PATH_IMAGE019
Figure 615438DEST_PATH_IMAGE020
分别表示左、右视图中像素p对应的特征向量。
即使这两个像素展现了不同的强度或者颜色。换言之,该特征提取模块
Figure 899701DEST_PATH_IMAGE015
能够将图像投影至特征空间,且该特征空间具有特征定常性。
进一步地,依据该特征定常性,本发明提出一种特征重建损失函数,用以评估视差图d L 的准确性,进而微调双目立体匹配神经网络。具体地,将指定视图x A 对齐到目标视图x B 的视角获得对齐视图
Figure 936927DEST_PATH_IMAGE007
后,本发明利用预训练得到的特征提取模块
Figure 418724DEST_PATH_IMAGE021
将目标视图x B 、对齐视图
Figure 379858DEST_PATH_IMAGE007
映射到其所表征的特征空间中,即:
Figure 263500DEST_PATH_IMAGE022
Figure 471627DEST_PATH_IMAGE023
此处指定视图及目标视图的定义与前述预训练阶段中的定义相同。
用以微调的特征重建损失函数表示为:
Figure 440720DEST_PATH_IMAGE024
需要说明的是,对齐视图
Figure 641763DEST_PATH_IMAGE007
会随着网络参数的更新而变化,具体的:每一次网络参数更新后,即便对于相同的非对称双目图像数据
Figure 442229DEST_PATH_IMAGE003
也会输出不同的视差图d L ,进而使得对齐视图
Figure 86837DEST_PATH_IMAGE007
发生变化。
微调后,可以得到新的双目立体匹配神经网络
Figure 293959DEST_PATH_IMAGE025
,其中,
Figure 49425DEST_PATH_IMAGE026
可以理解为第一次微调阶段双目立体匹配神经网络的参数,可以理解为第一次微调阶段获得的网络参数。
3、基于自增强的学习策略逐步微调双目立体匹配神经网络。
本发明实施例中,当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调,具体的:将当前微调阶段记为第k+1次微调阶段,当k+1=1时,当前微调阶段即为第一次微调阶段,此时基于预训练获得的网络参数构造特征重建损失函数进行网络参数的微调;当k+1>1时,基于前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调。每一次微调阶段都可以微调网络参数,从而在下一次微调阶段可以构建更加有效的特征重建损失函数,随后可以用来进一步地微调双目立体匹配神经网络。基于此,本发明提出自增强的学习策略,用以逐步微调双目立体匹配神经网络。
以当前微调阶段为例,由双目立体匹配神经网络利用预训练或者前一微调阶段获得的网络参数将非对称双目图像数据中的目标视图x B ,以及通过视角重投影获得的对齐视图
Figure 642080DEST_PATH_IMAGE027
分别映射至特征空间,并构造特征重建损失函数,表示为:
Figure 192011DEST_PATH_IMAGE028
Figure 384963DEST_PATH_IMAGE029
Figure 944121DEST_PATH_IMAGE030
其中,
Figure 453599DEST_PATH_IMAGE031
表示双目立体匹配神经网络中的特征提取模块,当k=0时,使用预训练获得的网络参数(即前文提及的
Figure 925163DEST_PATH_IMAGE021
),当k>0时,使用的是前一微调阶段获得的网络参数;对齐视图
Figure 90565DEST_PATH_IMAGE027
是指利用当前微调阶段正在更新的网络参数预测出的视差图通过视角重投影得到的对齐视图:
Figure 187834DEST_PATH_IMAGE032
Figure 20661DEST_PATH_IMAGE033
Figure 161661DEST_PATH_IMAGE034
为当前微调阶段正在更新的网络参数为
Figure 876676DEST_PATH_IMAGE035
的双目立体匹配神经网络,
Figure 512057DEST_PATH_IMAGE036
Figure 684544DEST_PATH_IMAGE034
预测出的视差图;
Figure 12757DEST_PATH_IMAGE037
Figure 152751DEST_PATH_IMAGE038
分别表示目标视图x B 与对齐视图
Figure 857402DEST_PATH_IMAGE027
映射至特征空间后对应的图像特征;
Figure 462825DEST_PATH_IMAGE039
表示利用预训练或者前一微调阶段获得的网络参数构造的特征重建损失函数。
利用特征重建损失函数进行参数微调,得到当前微调阶段的网络参数,微调阶段会不断迭代,直至达到设定次数;具体次数可由用户根据实际情况或者经验进行设定。
本领域技术人员可以理解,微调是本领域专有名称,表示对网络参数进行调整;具体的,微调是指无需进行网络参数随机初始化,而是从某一阶段(在本发明中,对应着预训练或者前一微调阶段)迁移过来,并直接开始训练。
四、网络验证。
本发明实施例中,依据训练出来的双目立体匹配神经网络在验证数据集上的双目立体匹配性能进行超参数调整;再利用验证数据集对训练后的双目立体匹配神经网络进行验证,选出特征重建损失函数最小的网络参数,从而确定最终的双目立体匹配神经网络。
本发明实施例中,所述超参数主要包括如学习率、损失函数权重等。
五、非对称双目立体匹配。
对于来自多摄混合成像系统的任意非对称双目图像,进行极线矫正,再利用训练好的最终的双目立体匹配神经网络实现非对称双目立体匹配。具体流程与前述训练阶段相同,即通过双目立体匹配预测视差图。
本发明实施例上述方案主要获得如下有益效果:
1、不依赖于真实的视差值,减少了数据集采集的成本。
2、能在具有新配置的多摄混合成像系统快速调整,以实现更好的泛化。
3、具有自增强的无监督学习过程,能在具有强烈非对称性的多摄混合成像系统训练出有效的双目立体匹配神经网络,从而完成立体匹配。
为验证本发明的有效性,在两种不同组合的多摄混合成像系统上进行测试。
1、长焦-广角(tele-wide)混合成像系统。
(1)数据集的选择与处理。
将4个公开的数据集(两个光场数据集Inria_SLFD及HCI、两个双目图像数据集Middlebury及KITTI2015)作为仿真数据的源数据,用于实施对比实验。为仿真长焦-广角相机的非对称分辨率,采用五种降质过程(degradation),分别是双三次下采样(BIC)、各向同性高斯下采样(IG)、各向异性高斯下采样(AG)、各向同性高斯下采样混合JPEG压缩(IG_JPEG)及各向异性高斯下采样混合JPEG压缩(AG_JPEG)。
(2)评价指标与对比方法。
对比实验选用了两个评价视差估计质量的数值指标EPE(Mayer N, Ilg E,Hausser P, et al. A large dataset to train convolutional networks fordisparity, optical flow, and scene flow estimation[C]//Proceedings of theIEEE conference on computer vision and pattern recognition. 2016: 4040-4048.)和3PE(Menze M, Geiger A. Object scene flow for autonomous vehicles[C]//Proceedings of the IEEE conference on computer vision and patternrecognition. 2015: 3061-3070.)。其中:EPE(endpointerror)表示预测视差与真实视差的平均误差。3PE(3pixel error)表示以3像素为判断阈值(误差超过3像素判为预测错误,反之预测正确)下的错误率。
参与比较的方法有:
传统的双目深度估计算法:SGM(Hirschmuller H. Accurate and efficientstereo processing by semi-global matching and mutual information[C]//2005IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'05). IEEE, 2005, 2: 807-814.)。
基于光度定常性假设的无监督双目立体匹配算法:BaseNet、利用非盲图像分辨算法进行图像超分辨并结合无监督双目立体匹配的方法RCAN+BaseNet(Zhang Y, Li K, LiK, et al. Image super-resolution using very deep residual channel attentionnetworks[C]//Proceedings of the European conference on computer vision(ECCV). 2018: 286-301.)、利用盲图像分辨算法进行图像超分辨并结合无监督双目立体匹配的方法DAN+BaseNet(Huang Y, Li S, Wang L, et al. Unfolding the alternatingoptimization for blind super resolution[J]. Advances in Neural InformationProcessing Systems, 2020, 33: 5632-5643.)。
基于特征定常性假设的无监督双目立体匹配算法:BaseNet+CL(Spencer J,Bowden R, Hadfield S. Defeat-net: General monocular depth via simultaneousunsupervised representation learning[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2020: 14402-14413.)、BaseNet+AE(Shu C, Yu K, Duan Z, et al. Feature-metric loss for self-supervised learning of depth and egomotion[C]European Conference on ComputerVision. Springer, Cham, 2020: 572-588.)。
(3)对比结果。
对比实验分别比较了非对称尺度为4和8时的结果。
4倍非对称尺度上的测试结果如表1~表4所示:
表1:本发明的方法在4倍非对称、Inria_SLFD数据集上的对比性能结果
Figure 961939DEST_PATH_IMAGE040
表2:本发明的方法在4倍非对称、Middlebury数据集上的对比性能结果
Figure 589230DEST_PATH_IMAGE041
表3:本发明的方法在4倍非对称、HCI数据集上的对比性能结果
Figure 582725DEST_PATH_IMAGE042
表4:本发明的方法在4倍非对称、KITTI2015数据集上的对比性能结果
Figure 713492DEST_PATH_IMAGE043
通过表1~表4可知,本发明的方法在两个指标上均能显著超过没有依赖于降质过程的方法(BaseNet、BaseNet+CL和BaseNet+AE),这表明本发明所使用的特征空间具有更好的降质过程不敏感性。相较于依赖于降质过程的方法(RCAN+BaseNet和DAN+BaseNet),在其降质过程假设成立的情况下,本发明的方法能在绝大多数测试数据集中超过其性能;在其降质过程假设不成立的情况下,本发明的方法在全部数据集中均具有显著的性能优势,这表明本发明的方法能够在所有降质过程中维持稳定、优异的性能。
8倍非对称尺度上的测试结果如表5所示:
表5:本发明的方法在8倍非对称、多个数据集上的对比性能结果
Figure 383508DEST_PATH_IMAGE044
可见,本发明的方法在这种较大非对称尺度的情况下,能够显著地超过所有地对比方法,这表明本发明所提出的自增强学习策略能够在大非对称尺度的情况下,维持优异的性能。
2、非对称曝光混合成像数据。
为验证本发明的有效性,将公开的非对称曝光双目数据集(Middlebury)作为验证数据集,采用三种非对称曝光设定进行测试,包括正常曝光VS欠曝光(normal&underexp.)、正常曝光VS过曝光(normal&overexp.)及欠曝光VS过曝光(under&overexp.)。对比实验选用了两个评价视差估计质量的数值指标EPE和3PE。参与对比的方法为基于光度定常性假设的无监督双目立体匹配算法,BaseNet。
测试结果如表6所示:
表6 :本发明的方法在非对称混合曝光、Middlebury数据集上的对比性能结果
Figure 544099DEST_PATH_IMAGE045
本发明的方法在不同设定下、不同指标上均能超过BaseNet,这表明本发明的方法在非对称混合曝光双目图像上的优异性能。
本发明还提供一种基于无监督学习的非对称双目立体匹配系统,其主要基于前述的方法实现,如图2所示,该系统主要包括:
训练数据集构造单元,用于利用非对称双目图像数据集构造训练数据集;
无监督学习单元,用于利用所述训练数据集使用自增强的学习策略对预先构造的双目立体匹配神经网络进行训练,训练过程包括预训练与逐步微调两个部分;预训练时,基于双目立体匹配神经网络进行双目立体匹配预测出视差图,并构建损失函数更新所述双目立体匹配神经网络的网络参数,预训练完毕后进入逐步微调阶段;逐步微调阶段包含多个微调阶段,当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调;
非对称双目立体匹配单元,用于利用训练后的双目立体匹配神经网络,对多摄混合成像系统的任意非对称双目图像进行双目立体匹配预测出视差图。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
此外,上述系统所涉及的主要技术细节在之前已经做了详细的介绍,故不再赘述。
本发明还提供一种处理设备,如图3所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于无监督学习的非对称双目立体匹配方法,其特征在于,包括:利用非对称双目图像数据集构造训练数据集;利用所述训练数据集使用自增强的学习策略对预先构造的双目立体匹配神经网络进行训练,训练过程包括预训练与逐步微调两个部分;预训练时,基于双目立体匹配神经网络进行双目立体匹配预测出视差图,并构建损失函数更新所述双目立体匹配神经网络的网络参数,预训练完毕后进入逐步微调阶段;逐步微调阶段包含多个微调阶段,当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调;利用训练后的双目立体匹配神经网络,对多摄混合成像系统的任意非对称双目图像进行双目立体匹配预测出视差图;
基于双目立体匹配神经网络进行双目立体匹配预测出视差图,并构建损失函数更新所述双目立体匹配神经网络的网络参数的步骤包括:
将训练数据集中的每一非对称双目图像数据
Figure 142575DEST_PATH_IMAGE001
分别送入所述双目立体匹配神经 网络进行双目立体匹配,预测出相应的视差图d L
Figure 383063DEST_PATH_IMAGE002
其中,x L 表示左视图,x R 表示右视图;
Figure 789161DEST_PATH_IMAGE003
表示预训练时网络参数为
Figure 140508DEST_PATH_IMAGE004
的双目立体 匹配神经网络;
利用视差图d L 进行视角重投影,即利用视差图d L 将指定视图x A 对齐到目标视图x B 的视角 获得对齐视图
Figure 961834DEST_PATH_IMAGE005
,表示为:
Figure 622491DEST_PATH_IMAGE006
其中,Warp(.)表示扭曲变形函数;当A=R且B=L时,右视图x R 为指定视图,左视图x L 为目标视图,表示将右视图x R 对齐到左视图x L 的视角;当A=L且B=R时,即左视图x L 为指定视图,右视图x R 为目标视图,表示将左视图x L 对齐到右视图x R 的视角;
利用所述对齐视图
Figure 794846DEST_PATH_IMAGE007
构造图像重建损失函数,表示为:
Figure 684305DEST_PATH_IMAGE008
利用所述图像重建损失函数训练所述双目立体匹配神经网络,更新网络参数;
构造特征重建损失函数的步骤包括:
当前微调阶段,由双目立体匹配神经网络利用预训练或者前一微调阶段获得的网络参 数将非对称双目图像数据中的目标视图x B ,以及通过双目立体匹配获得的对齐视图
Figure 625716DEST_PATH_IMAGE009
分别映射至特征空间,并构造特征重建损失函数,表示为:
Figure 208007DEST_PATH_IMAGE010
Figure 851347DEST_PATH_IMAGE011
Figure 544497DEST_PATH_IMAGE012
其中,
Figure 74835DEST_PATH_IMAGE013
表示双目立体匹配神经网络中的特征提取模块,当k=0时,使用预训练 获得的网络参数,当k>0时,使用的是前一微调阶段获得的网络参数;对齐视图
Figure 828027DEST_PATH_IMAGE009
是指 利用当前微调阶段正在更新的网络参数预测出的视差图通过视角重投影得到的对齐视图;
Figure 958663DEST_PATH_IMAGE014
Figure 455504DEST_PATH_IMAGE015
分别表示目标视图x B 与对齐视图
Figure 105928DEST_PATH_IMAGE009
映射至特征空间后对应的图像特 征,当A=R且B=L时,右视图x R 为指定视图,左视图x L 为目标视图,当A=L且B=R时,左视图x L 为 指定视图,右视图x R 为目标视图;
Figure 764442DEST_PATH_IMAGE016
表示利用预训练或者前一微调阶段获得的网络参数 构造的特征重建损失函数。
2.根据权利要求1所述的一种基于无监督学习的非对称双目立体匹配方法,其特征在于,所述利用非对称双目图像数据集构造训练数据集包括:对选定的多摄混合成像系统进行标定,并获取的双目极线矫正参数;利用选定的多摄混合成像系统采集若干组同步的原始双目图像,并使用所述双目极线矫正参数进行极线矫正,构建非对称双目图像数据集;从所述非对称双目图像数据集中取出一部分作为训练数据,对所述训练数据进行数据扩增构造出训练数据集。
3.根据权利要求1所述的一种基于无监督学习的非对称双目立体匹配方法,其特征在于,所述双目立体匹配神经网络包括:特征提取模块、代价体构建模块、代价体正则模块以及视差估计模块;其中:所述特征提取模块,用于将非对称双目图像数据映射至特征空间,获得非对称双目图像数据的图像特征;所述代价体构建模块,用于结合非对称双目图像数据的图像特征构建代价体;所述代价体正则模块,用于结合代价体计算不同非对称双目图像数据中不同像素的视差概率分布;所述视差估计模块,用于根据不同像素的视差概率分布预测非对称双目图像数据的视差图。
4.根据权利要求1所述的一种基于无监督学习的非对称双目立体匹配方法,其特征在于,所述当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调包括:将当前微调阶段记为第k+1次微调阶段,当k+1=1时,当前微调阶段即为第一次微调阶段,此时基于预训练获得的网络参数构造特征重建损失函数进行网络参数的微调;当k+1>1时,基于前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调。
5.根据权利要求1或2所述的一种基于无监督学习的非对称双目立体匹配方法,其特征在于,该方法还包括:利用非对称双目图像数据集构造验证数据集,调整超参数后,使用所述验证数据集对训练后的双目立体匹配神经网络进行验证,选出最优网络参数,由使用最优网络参数的双目立体匹配神经网络对多摄混合成像系统的任意非对称双目图像进行双目立体匹配预测出视差图。
6.一种基于无监督学习的非对称双目立体匹配系统,其特征在于,基于权利要求1~5任一项所述的方法实现,该系统包括:训练数据集构造单元,用于利用非对称双目图像数据集构造训练数据集;无监督学习单元,用于利用所述训练数据集使用自增强的学习策略对预先构造的双目立体匹配神经网络进行训练,训练过程包括预训练与逐步微调两个部分;预训练时,基于双目立体匹配神经网络进行双目立体匹配预测出视差图,并构建损失函数更新所述双目立体匹配神经网络的网络参数,预训练完毕后进入逐步微调阶段;逐步微调阶段包含多个微调阶段,当前微调阶段基于预训练或者前一微调阶段获得的网络参数构造特征重建损失函数进行网络参数的微调;非对称双目立体匹配单元,用于利用训练后的双目立体匹配神经网络,对多摄混合成像系统的任意非对称双目图像进行双目立体匹配预测出视差图。
7.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~5任一项所述的方法。
8.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。
CN202210695991.4A 2022-06-20 2022-06-20 一种基于无监督学习的非对称双目立体匹配方法及系统 Active CN114782507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210695991.4A CN114782507B (zh) 2022-06-20 2022-06-20 一种基于无监督学习的非对称双目立体匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210695991.4A CN114782507B (zh) 2022-06-20 2022-06-20 一种基于无监督学习的非对称双目立体匹配方法及系统

Publications (2)

Publication Number Publication Date
CN114782507A CN114782507A (zh) 2022-07-22
CN114782507B true CN114782507B (zh) 2022-09-30

Family

ID=82420781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210695991.4A Active CN114782507B (zh) 2022-06-20 2022-06-20 一种基于无监督学习的非对称双目立体匹配方法及系统

Country Status (1)

Country Link
CN (1) CN114782507B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115597551B (zh) * 2022-12-14 2023-04-07 成都量芯集成科技有限公司 一种手持激光辅助双目扫描装置及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706270A (zh) * 2019-09-06 2020-01-17 中科院微电子研究所昆山分所 一种基于卷积神经网络的自适应场景双目立体匹配方法
CN111462208A (zh) * 2020-04-05 2020-07-28 北京工业大学 一种基于双目视差和外极线约束的无监督深度预测方法
CN111508013A (zh) * 2020-04-21 2020-08-07 中国科学技术大学 立体匹配方法
CN111709977A (zh) * 2020-03-17 2020-09-25 北京航空航天大学青岛研究院 一种基于自适应单峰立体匹配成本滤波的双目深度学习方法
CN113344869A (zh) * 2021-05-31 2021-09-03 武汉理工大学 一种基于候选视差的行车环境实时立体匹配方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706270A (zh) * 2019-09-06 2020-01-17 中科院微电子研究所昆山分所 一种基于卷积神经网络的自适应场景双目立体匹配方法
CN111709977A (zh) * 2020-03-17 2020-09-25 北京航空航天大学青岛研究院 一种基于自适应单峰立体匹配成本滤波的双目深度学习方法
CN111462208A (zh) * 2020-04-05 2020-07-28 北京工业大学 一种基于双目视差和外极线约束的无监督深度预测方法
CN111508013A (zh) * 2020-04-21 2020-08-07 中国科学技术大学 立体匹配方法
CN113344869A (zh) * 2021-05-31 2021-09-03 武汉理工大学 一种基于候选视差的行车环境实时立体匹配方法及装置

Also Published As

Publication number Publication date
CN114782507A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
US10346997B2 (en) Depth estimation method based on light-field data distribution
US10929718B2 (en) Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium
US10334168B2 (en) Threshold determination in a RANSAC algorithm
US9898856B2 (en) Systems and methods for depth-assisted perspective distortion correction
KR101643607B1 (ko) 영상 데이터 생성 방법 및 장치
US9519972B2 (en) Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
US8755630B2 (en) Object pose recognition apparatus and object pose recognition method using the same
US20150138322A1 (en) Image processing device and its control method, imaging apparatus, and storage medium
US20110176722A1 (en) System and method of processing stereo images
CN104662589A (zh) 用于使用阵列照相机捕捉的图像中的视差检测和校正的系统和方法
CN111080669B (zh) 一种图像反射分离方法及装置
FR3011368A1 (fr) Procede et dispositif pour le renforcement de la forme des bords pour l'amelioration visuelle du rendu base sur des images de profondeur d'un flux video en trois dimensions
CN111028170A (zh) 图像处理方法、图像处理装置、电子设备和可读存储介质
CN114782507B (zh) 一种基于无监督学习的非对称双目立体匹配方法及系统
CN111553845A (zh) 一种基于优化的三维重建的快速图像拼接方法
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
CN110120012B (zh) 基于双目摄像头的同步关键帧提取的视频拼接方法
CN111951339A (zh) 利用异构双目相机进行视差计算的图像处理方法
CN110717593A (zh) 神经网络训练、移动信息测量、关键帧检测的方法及装置
CN111105370B (zh) 图像处理方法、图像处理装置、电子设备和可读存储介质
CN117058183A (zh) 一种基于双摄像头的图像处理方法、装置、电子设备及存储介质
CN112132925A (zh) 用于重建水下图像颜色的方法和装置
US11967096B2 (en) Methods and apparatuses of depth estimation from focus information
CN112950698B (zh) 基于双目散焦图像的深度估计方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant