CN111476835A - 多视角图像一致性的无监督深度预测方法、系统、装置 - Google Patents

多视角图像一致性的无监督深度预测方法、系统、装置 Download PDF

Info

Publication number
CN111476835A
CN111476835A CN202010437242.2A CN202010437242A CN111476835A CN 111476835 A CN111476835 A CN 111476835A CN 202010437242 A CN202010437242 A CN 202010437242A CN 111476835 A CN111476835 A CN 111476835A
Authority
CN
China
Prior art keywords
depth
image
network
consistency
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010437242.2A
Other languages
English (en)
Other versions
CN111476835B (zh
Inventor
徐士彪
张宇阳
孟维亮
张吉光
张晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010437242.2A priority Critical patent/CN111476835B/zh
Publication of CN111476835A publication Critical patent/CN111476835A/zh
Application granted granted Critical
Publication of CN111476835B publication Critical patent/CN111476835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Abstract

本发明属于领域,具体涉及了一种多视角图像一致性的无监督深度预测方法、系统、装置,旨在解决深度预测中监督方法费时费力,而无监督方法预测结果精度低的问题。本发明包括:基于无监督密集深度网络以及无监督姿态网络构建图像深度预测网络;获取多个不同视图的图像簇集合作为训练样本集合;结合图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建总损失函数;进行无监督的深度预测网络的训练;通过训练好的网络获取输入图像的预测深度。本发明避开了监督学习方法中需要的高质量大规模数据集和相应真值深度标注,降低成本、提高效率,同时结合了多视图的颜色一致性、深度一致性和深度平滑损失,实现了高精度无监督的深度预测。

Description

多视角图像一致性的无监督深度预测方法、系统、装置
技术领域
本发明属于计算机视觉领域,具体涉及了一种多视角图像一致性的无监督深度预测方法、系统、装置。
背景技术
图像深度信息的精确预测是计算机视觉中的基本问题,也是视觉感知和三维场景理解领域中最具有挑战性的话题之一,而它也是众多计算机视觉应用的基础,包括自动驾驶汽车、机器人导航、虚拟现实等。人们为解决这个问题做了很多努力。传统的方法试图通过人造特征和精心调整的参数来预测深度图。然而,它们受限于人工特征的能力,对于复杂的场景很难准确有效的得到预测结果。
近年来,深度神经网络在图像分类、分割和目标检测等传统的计算机视觉问题上取得了巨大的成功。它们也被用于深度预测问题,例如有些研究将深度预测视为监督回归任务。这些监督学习方法通常需要高质量的大规模数据集和相应的真值深度标注。然而,获取这样的标注是很昂贵的,因为需要使用特殊的设备(激光、深度相机)来采集深度信息,并且需要很长的采集时间。为了突破这个限制,一些方法是尝试使用无监督框架,以避免使用上述标注信息。这些工作的关键思想是利用输入图像(立体或多视图)之间的颜色对应关系来构造训练网络的损失函数。现有的无监督方法不需要标记数据集,大大降低了收集数据的成本,但是,其图像深度信息的预测质量却不如监督方法。
总的来说,深度预测问题中监督学习方法由于需要获取大量高质量的标注,实现起来费时费力,而场景的多样性和复杂性,也导致采用无监督学习方法进行深度预测,其结果的精度远远不能满足要求。
发明内容
为了解决现有技术中的上述问题,即深度预测中监督方法费时费力,而无监督方法预测结果精度低的问题,本发明提供了一种多视角图像一致性的无监督深度预测方法,该深度预测方法包括:
通过训练好的图像深度预测网络获取输入图像的预测深度;所述图像深度预测网络基于无监督密集深度网络以及无监督姿态网络构建,其训练方法为:
步骤S10,获取多个不同视图的图像簇集合作为训练样本集合;所述训练样本集合中每一个训练样本为一个图像簇;所述图像簇包括1个当前图像和n个当前图像的近邻图像;
步骤S20,结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数;
步骤S30,随机选取所述训练样本集合中一个训练样本,迭代进行图像深度预测以及图像深度预测网络的优化,直至所述总损失函数值低于设定值或达到设定的训练次数,得到训练好的图像深度预测网络。
在一些优选的实施例中,所述无监督密集深度网络基于UNet网络构建,包括编码器和解码器;
所述编码器包括多个密集块;所述解码器包括多个反密集块;
所述密集块与反密集块由紧密相连的卷积单元叠加而成。
在一些优选的实施例中,所述无监督姿态网络基于不同视角间图像像素之间的投影关系及像素深度值,获取不同视角间图像像素之间的预测深度值;
所述不同视角间图像像素之间的投影关系为:
Figure BDA0002502746550000031
其中,ps=[us,vs]T和pt=[ut,vt]T分别为t视角图像与s视角图像中相同点对应像素坐标,ds和dt分别代表ps、pt对应的深度值,K为相机内参矩阵,Tt→s为相机t视角到s视角的位姿变换矩阵。
在一些优选的实施例中,所述总损失函数为:
Figure BDA0002502746550000032
其中,Lc为颜色一致性损失函数,Ld为深度一致性损失函数,Ls(D,I)为深度平滑损失函数,λc、λd、λs分别为颜色一致性损失函数、深度一致性损失函数、深度平滑损失函数相对于总损失函数的权重,l代表图像的尺度。
在一些优选的实施例中,所述颜色一致性损失函数为:
Lc=Lcolor,s→t+Lcolor,t→s
其中,Lcolor,s→t代表s视角图像到t视角图像的相似度度量,Lcolor,t→s代表t视角图像到s视角图像的相似度度量;
所述相似度度量,其计算方法为:
Figure BDA0002502746550000033
其中,SSIM(is,it)和SSIM(it,is)分别代表求is到it的相似度和it到is之间的相似度,it和is分别为t视角和s视角对应的图像像素位置的颜色值;α为预先设定的常数;N为图像的像素个数。
在一些优选的实施例中,所述深度一致性损失函数为:
Ld=Ldepth,s→t+Ldepth,t→s
其中,Ldept,h→s代表s视角图像到t视角图像的深度一致性,Ldepth,t→s代表t视角图像到s视角图像的深度一致性;
所述深度一致性,其计算方法为:
Figure BDA0002502746550000041
Figure BDA0002502746550000042
其中,ds和dt分别代表t视角图像与s视角图像中相同点对应像素的深度值,d's和d't分别代表通过无监督姿态网络获取的t视角图像与s视角图像中相同点对应像素的预测深度值,N为图像的像素个数。
在一些优选的实施例中,所述深度平滑损失函数为:
Figure BDA0002502746550000043
其中,▽I(p)和▽D(p)分别为s视角图像I中的像素p和对应的深度图D中的像素p的梯度,T代表矩阵转置,N为图像的像素个数。
本发明的另一方面,提出了一种多视角图像一致性的无监督深度预测系统,该深度预测系统包括输入模块、深度预测模块和输出模块;
所述输入模块,配置为获取输入图像或多个不同视图的图像簇集合并输入;所述图像簇集合中每一个图像簇作为一个训练样本;所述图像簇包括1个当前图像和n个当前图像的近邻图像;
所述深度预测模块,配置为基于所述输入图像,调用训练好的图像深度预测网络获取所述输入图像的预测深度;
所述输出模块,配置为输出获取的输入图像的预测深度;
其中,所述深度预测模块包括网络构建模块、损失函数构建模块、网络训练模块和网络存储模块;
所述网络构建模块,配置为基于无监督密集深度网络以及无监督姿态网络构建图像深度预测网络;
所述损失函数构建模块,配置为结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数;
所述网络训练模块,配置为随机选取一个训练样本,迭代进行图像深度预测以及图像深度预测网络的优化,直至所述总损失函数值低于设定值或达到设定的训练次数;
所述网络存储模块,配置为存储训练好的图像深度预测网络。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。
本发明的有益效果:
本发明多视角图像一致性的无监督深度预测方法,先对稠密深度预测进行无监督网络结构设计;然后,构建联合多视图的颜色一致性、深度一致性及深度平滑损失;最后,通过无监督网络的训练与优化,获得图像深度预测网络,避开了有监督学习方法中需要的高质量的大规模数据集和相应的真值深度标注,降低成本、提高效率,同时,本发明的无监督学习方法结合了多视图的颜色一致性、深度一致性和深度平滑损失,深度预测结果质量高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明多视角图像一致性的无监督深度预测方法的流程示意图;
图2是本发明多视角图像一致性的无监督深度预测方法一种实施例的无监督密集深度网络结构示意图;
图3是本发明多视角图像一致性的无监督深度预测方法一种实施例的深度一致性示意图;
图4是本发明多视角图像一致性的无监督深度预测方法一种实施例的输入图像、深度预测结果、真值结果对比图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种多视角图像一致性的无监督深度预测方法,该深度预测方法包括:
通过训练好的图像深度预测网络获取输入图像的预测深度;所述图像深度预测网络基于无监督密集深度网络以及无监督姿态网络构建,其训练方法为:
步骤S10,获取多个不同视图的图像簇集合作为训练样本集合;所述训练样本集合中每一个训练样本为一个图像簇;所述图像簇包括1个当前图像和n个当前图像的近邻图像;
步骤S20,结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数;
步骤S30,随机选取所述训练样本集合中一个训练样本,迭代进行图像深度预测以及图像深度预测网络的优化,直至所述总损失函数值低于设定值或达到设定的训练次数,得到训练好的图像深度预测网络。
本发明一种实施例的多视角图像一致性的无监督深度预测方法,各步骤详细描述如下:
通过训练好的图像深度预测网络获取输入图像的预测深度。
图像深度预测网络基于无监督密集深度网络(DenseDepthNet)以及无监督姿态网络(unPoseNet)构建。如图2所示,为本发明多视角图像一致性的无监督深度预测方法一种实施例的无监督密集深度网络结构示意图,网络基于UNet网络构建,包括由密集块(Denseblock)组成的编码器和反向密集块组成的解码器(upDenseblock)。图中,密集块3、密集块6、密集块12、密集块8代表网络相应位置分别叠加了3个、6个、12个、8个密集块(即稠密块);反向密集块8、反向密集块12、反向密集块6、反向密集块3代表网络相应位置分别叠加了8个、12个、6个、3个反向密集块(即反向稠密块)。密集块和反向密集块都是由紧密相连的卷积单元(1×1卷积和3×3卷积)叠加而成,其结构能够利用之前的所有输出进行更高效的特征计算;反向密集块利用双线性上采样模块对特征图进行处理,不仅接收前一个直接连接层的输出,还通过跳层连接接收对应的密集块传输过来的信息。
为了构造完全无监督损失来训练图像深度预测网络,需要通过相机转换来消除不同视图中图像之间的差距,使用无监督姿态网络(unPoseNet)来预测输入图像对的相对变换,以计算后续阶段的非监督损失。无监督姿态网络基于不同视角间图像像素之间的投影关系及像素深度值,获取不同视角间图像像素之间的预测深度值。
不同视角间图像像素之间的投影关系如式(1)所示:
Figure BDA0002502746550000081
其中,ps=[us,vs]T和pt=[ut,vt]T分别为t视角图像与s视角图像中相同点对应像素坐标,ds和dt分别代表ps、pt对应的深度值,K为相机内参矩阵,Tt→s为相机t视角到s视角的位姿变换矩阵。
本发明方法将当前图像的视角定义为s视角,当前图像的近邻图像的视角定义为t视角。
步骤S10,获取多个不同视图的图像簇集合作为训练样本集合;所述训练样本集合中每一个训练样本为一个图像簇;所述图像簇包括1个当前图像和n个当前图像的近邻图像。
步骤S20,结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数,如式(2)所示:
Figure BDA0002502746550000082
其中,Lc为颜色一致性损失函数,Ld为深度一致性损失函数,Ls(D,I)为深度平滑损失函数,λc、λd、λs分别为颜色一致性损失函数、深度一致性损失函数、深度平滑损失函数相对于总损失函数的权重,l代表图像的尺度。
颜色一致性损失:对于同一3D点在不同视图下无遮挡的像素pt和它对应的像素ps,假设它们有相同的颜色,例如it=It(ut,vt)和is=Is(us,vs)是相等的。因此,it和is间的色差可以作为颜色一致性损失监督信号。
颜色一致性损失函数如式(3)所示:
Lc=Lcolor,s→t+Lcolor,t→s 式(3)
为了更好地量化这种颜色差异,采用一种鲁棒的图像相似性度量方法SSIM和L1范式获取s视角图像到t视角图像的相似度度量和t视角图像到s视角图像的相似度度量,如式(4)和式(5)所示:
Figure BDA0002502746550000091
Figure BDA0002502746550000092
其中,SSIM(is,it)和SSIM(it,is)分别代表求is到it的相似度和it到is之间的相似度,it和is分别为t视角和s视角对应的图像像素位置的颜色值;α为预先设定的常数;N为图像的像素个数。本发明一个实施例中,α=0.85。
深度一致性损失:为了利用两两序列图像深度图之间的像素对应关系,如图3所示,为本发明多视角图像一致性的无监督深度预测方法一种实施例的深度一致性示意图,对于在t视图下的像素pt=[ut,vt]T和它的深度值dt=(ut,vt),可以通过式(1)得到对应的像素坐标ps=[us,vs]T和它的深度值ds=(us,vs)。使用来自s视图的深度图Ds,还可以查询深度值ds'=Ds(us,vs)。
深度一致性损失函数如式(6)所示:
Ld=Ldepth,s→t+Ldepth,t→s 式(6)
深度一致性损失定义为ds和d's差的L1范式,s视角图像到t视角图像的深度一致性和t视角图像到s视角图像的深度一致性分别如式(7)和式(8)所示:
Figure BDA0002502746550000101
Figure BDA0002502746550000102
其中,ds和dt分别代表t视角图像与s视角图像中相同点对应像素的深度值,d's和d't分别代表通过无监督姿态网络获取的t视角图像与s视角图像中相同点对应像素的预测深度值,N为图像的像素个数。
应用深度一致性损失是提高深度估计精度的一种直接而有效的方法。深度一致性损失强制深度估计满足几何约束,这潜在地消除了由无真值的无监督学习的性质引起的歧义。
深度光滑损失:非监督损失函数中固有的噪声对整个训练过程产生了负面影响,为了尽可能减少这种影响,采用深度平滑损失作为正则化来提高密集深度网络的输出。
深度平滑损失函数如式(9)所示:
Figure BDA0002502746550000103
其中,▽I(p)和▽D(p)分别为s视角图像I中的像素p和对应的深度图D中的像素p的梯度,T代表矩阵转置,N为图像的像素个数。
步骤S30,随机选取所述训练样本集合中一个训练样本,迭代进行图像深度预测以及图像深度预测网络的优化,直至所述总损失函数值低于设定值或达到设定的训练次数,得到训练好的图像深度预测网络。
本发明使用TensorFlow实现网络结构及损失函数,整个网络在一个单独的泰坦GPU上训练,为了充分利用多视图约束,在训练阶段使用多个图像来组成训练簇(batch),因为损失是以成对的方式来描述的。具体来说,训练簇(batch)X中的一个样本x包含n+1个具有相似视图的图像,即1个当前图像和n个当前图像的近邻图像。中心视图的图像表示为It,样本x中剩下的图像为Is1,...,Isn,它们分别和It配对来计算多视图损失。通过这种方式,网络受到更强的约束,从而得到更好的结果。
在网络训练期间,优化器中的学习率设置为lr=0.002,训练簇(batch)大小设置为4,训练损失函数的权重设置为λd=0.01、λc=1.0、λs=0.5。
最终通过求解上述网络结构训练,得到精确的稠密深度预测结果。本发明使用常见错误度量(绝对相对误差、平方相对误差、RMSE、log RMSE等)来评估预测性能。
如图4所示,为本发明多视角图像一致性的无监督深度预测方法一种实施例的输入图像、深度预测结果、真值结果对比图,上面3幅图为输入图像簇,中间3幅图为采用本发明方法获取的深度预测结果图,下面3幅图为输入图像簇对应的真值图,从本发明深度预测结果与真值图比对可知,本发明在无监督情况下,实现了高精度无监督的稠密深度预测。
本发明第二实施例的多视角图像一致性的无监督深度预测系统,该深度预测系统包括输入模块、深度预测模块和输出模块;
所述输入模块,配置为获取输入图像或多个不同视图的图像簇集合并输入;所述图像簇集合中每一个图像簇作为一个训练样本;所述图像簇包括1个当前图像和n个当前图像的近邻图像;
所述深度预测模块,配置为基于所述输入图像,调用训练好的图像深度预测网络获取所述输入图像的预测深度;
所述输出模块,配置为输出获取的输入图像的预测深度;
其中,所述深度预测模块包括网络构建模块、损失函数构建模块、网络训练模块和网络存储模块;
所述网络构建模块,配置为基于无监督密集深度网络以及无监督姿态网络构建图像深度预测网络;
所述损失函数构建模块,配置为结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数;
所述网络训练模块,配置为随机选取一个训练样本,迭代进行图像深度预测以及图像深度预测网络的优化,直至所述总损失函数值低于设定值或达到设定的训练次数;
所述网络存储模块,配置为存储训练好的图像深度预测网络。
为了更清晰地对本发明多视角图像一致性的无监督深度预测方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的多视角图像一致性的无监督深度预测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的多视角图像一致性的无监督深度预测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种多视角图像一致性的无监督深度预测方法,其特征在于,该深度预测方法包括:
通过训练好的图像深度预测网络获取输入图像的预测深度;所述图像深度预测网络基于无监督密集深度网络以及无监督姿态网络构建,其训练方法为:
步骤S10,获取多个不同视图的图像簇集合作为训练样本集合;所述训练样本集合中每一个训练样本为一个图像簇;所述图像簇包括1个当前图像和n个当前图像的近邻图像;
步骤S20,结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数;
步骤S30,随机选取所述训练样本集合中一个训练样本,迭代进行图像深度预测以及图像深度预测网络的优化,直至所述总损失函数值低于设定值或达到设定的训练次数,得到训练好的图像深度预测网络。
2.根据权利要求1所述的多视角图像一致性的无监督深度预测方法,其特征在于,所述无监督密集深度网络基于UNet网络构建,包括编码器和解码器;
所述编码器包括多个密集块;所述解码器包括多个反密集块;
所述密集块与反密集块由紧密相连的卷积单元叠加而成。
3.根据权利要求1所述的多视角图像一致性的无监督深度预测方法,其特征在于,所述无监督姿态网络基于不同视角间图像像素之间的投影关系及像素深度值,获取不同视角间图像像素之间的预测深度值;
所述不同视角间图像像素之间的投影关系为:
Figure FDA0002502746540000021
其中,ps=[us,vs]T和pt=[ut,vt]T分别为t视角图像与s视角图像中相同点对应像素坐标,ds和dt分别代表ps、pt对应的深度值,K为相机内参矩阵,Tt→s为相机t视角到s视角的位姿变换矩阵。
4.根据权利要求1所述的多视角图像一致性的无监督深度预测方法,其特征在于,所述总损失函数为:
Figure FDA0002502746540000022
其中,Lc为颜色一致性损失函数,Ld为深度一致性损失函数,Ls(D,I)为深度平滑损失函数,λc、λd、λs分别为颜色一致性损失函数、深度一致性损失函数、深度平滑损失函数相对于总损失函数的权重,l代表图像的尺度。
5.根据权利要求4所述的多视角图像一致性的无监督深度预测方法,其特征在于,所述颜色一致性损失函数为:
Lc=Lcolor,s→t+Lcolor,t→s
其中,Lcolor,s→t代表s视角图像到t视角图像的相似度度量,Lcolor,t→s代表t视角图像到s视角图像的相似度度量;
所述相似度度量,其计算方法为:
Figure FDA0002502746540000023
Figure FDA0002502746540000024
其中,SSIM(is,it)和SSIM(it,is)分别代表求is到it的相似度和it到is之间的相似度,it和is分别为t视角和s视角对应的图像像素位置的颜色值;α为预先设定的常数;N为图像的像素个数。
6.根据权利要求4所述的多视角图像一致性的无监督深度预测方法,其特征在于,所述深度一致性损失函数为:
Ld=Ldepth,s→t+Ldepth,t→s
其中,Ldepth,s→t代表s视角图像到t视角图像的深度一致性,Ldepth,t→s代表t视角图像到s视角图像的深度一致性;
所述深度一致性,其计算方法为:
Figure FDA0002502746540000031
Figure FDA0002502746540000032
其中,ds和dt分别代表t视角图像与s视角图像中相同点对应像素的深度值,d's和d't分别代表通过无监督姿态网络获取的t视角图像与s视角图像中相同点对应像素的预测深度值,N为图像的像素个数。
7.根据权利要求4所述的多视角图像一致性的无监督深度预测方法,其特征在于,所述深度平滑损失函数为:
Figure FDA0002502746540000033
其中,
Figure FDA0002502746540000034
Figure FDA0002502746540000035
分别为s视角图像I中的像素p和对应的深度图D中的像素p的梯度,T代表矩阵转置,N为图像的像素个数。
8.一种多视角图像一致性的无监督深度预测系统,其特征在于,该深度预测系统包括输入模块、深度预测模块和输出模块;
所述输入模块,配置为获取输入图像或多个不同视图的图像簇集合并输入;所述图像簇集合中每一个图像簇作为一个训练样本;所述图像簇包括1个当前图像和n个当前图像的近邻图像;
所述深度预测模块,配置为基于所述输入图像,调用训练好的图像深度预测网络获取所述输入图像的预测深度;
所述输出模块,配置为输出获取的输入图像的预测深度;
其中,所述深度预测模块包括网络构建模块、损失函数构建模块、网络训练模块和网络存储模块;
所述网络构建模块,配置为基于无监督密集深度网络以及无监督姿态网络构建图像深度预测网络;
所述损失函数构建模块,配置为结合所述图像簇中不同视角图像的颜色一致性、深度一致性及深度平滑损失构建所述图像深度预测网络的总损失函数;
所述网络训练模块,配置为随机选取一个训练样本,迭代进行图像深度预测以及图像深度预测网络的优化,直至所述总损失函数值低于设定值或达到设定的训练次数;
所述网络存储模块,配置为存储训练好的图像深度预测网络。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的多视角图像一致性的无监督深度预测方法。
10.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-7任一项所述的多视角图像一致性的无监督深度预测方法。
CN202010437242.2A 2020-05-21 2020-05-21 多视角图像一致性的无监督深度预测方法、系统、装置 Active CN111476835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010437242.2A CN111476835B (zh) 2020-05-21 2020-05-21 多视角图像一致性的无监督深度预测方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010437242.2A CN111476835B (zh) 2020-05-21 2020-05-21 多视角图像一致性的无监督深度预测方法、系统、装置

Publications (2)

Publication Number Publication Date
CN111476835A true CN111476835A (zh) 2020-07-31
CN111476835B CN111476835B (zh) 2021-08-10

Family

ID=71763725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010437242.2A Active CN111476835B (zh) 2020-05-21 2020-05-21 多视角图像一致性的无监督深度预测方法、系统、装置

Country Status (1)

Country Link
CN (1) CN111476835B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409210A (zh) * 2021-06-17 2021-09-17 杭州海康威视数字技术股份有限公司 瞳孔亮斑消除方法
CN113516698A (zh) * 2021-07-23 2021-10-19 香港中文大学(深圳) 一种室内空间深度估计方法、装置、设备及存储介质
CN113822919A (zh) * 2021-11-24 2021-12-21 中国海洋大学 基于语义信息约束的水下图像相对深度估计方法
CN114626520A (zh) * 2022-03-01 2022-06-14 腾讯科技(深圳)有限公司 训练模型的方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231754A (zh) * 2008-02-03 2008-07-30 四川虹微技术有限公司 多视角视频图像深度搜索方法及深度估计方法
US20140192154A1 (en) * 2011-08-09 2014-07-10 Samsung Electronics Co., Ltd. Method and device for encoding a depth map of multi viewpoint video data, and method and device for decoding the encoded depth map
CN109741383A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于空洞卷积和半监督学习的图像深度估计系统与方法
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN111028282A (zh) * 2019-11-29 2020-04-17 浙江省北大信息技术高等研究院 一种无监督位姿与深度计算方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231754A (zh) * 2008-02-03 2008-07-30 四川虹微技术有限公司 多视角视频图像深度搜索方法及深度估计方法
US20140192154A1 (en) * 2011-08-09 2014-07-10 Samsung Electronics Co., Ltd. Method and device for encoding a depth map of multi viewpoint video data, and method and device for decoding the encoded depth map
CN109741383A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于空洞卷积和半监督学习的图像深度估计系统与方法
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN111028282A (zh) * 2019-11-29 2020-04-17 浙江省北大信息技术高等研究院 一种无监督位姿与深度计算方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUCHAO DAI ET AL: "MVS2: Deep Unsupervised Multi-View Stereo with Multi-View Symmetry", 《2019 INTERNATIONAL CONFERENCE ON 3D VISION (3DV)》 *
何通能等: "基于DenseNet的单目图像深度估计", 《计算机测量与控制》 *
赵栓峰等: "面向无人机自主飞行的无监督单目视觉深度估计", 《激光与光电子学进展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409210A (zh) * 2021-06-17 2021-09-17 杭州海康威视数字技术股份有限公司 瞳孔亮斑消除方法
CN113516698A (zh) * 2021-07-23 2021-10-19 香港中文大学(深圳) 一种室内空间深度估计方法、装置、设备及存储介质
CN113516698B (zh) * 2021-07-23 2023-11-17 香港中文大学(深圳) 一种室内空间深度估计方法、装置、设备及存储介质
CN113822919A (zh) * 2021-11-24 2021-12-21 中国海洋大学 基于语义信息约束的水下图像相对深度估计方法
CN113822919B (zh) * 2021-11-24 2022-02-25 中国海洋大学 基于语义信息约束的水下图像相对深度估计方法
CN114626520A (zh) * 2022-03-01 2022-06-14 腾讯科技(深圳)有限公司 训练模型的方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111476835B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN111476835B (zh) 多视角图像一致性的无监督深度预测方法、系统、装置
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN109376641B (zh) 一种基于无人机航拍视频的运动车辆检测方法
CN107590234B (zh) 一种基于ransac的室内视觉定位数据库冗余信息减少的方法
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN110674925B (zh) 基于3d卷积神经网络的无参考vr视频质量评价方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN110992366A (zh) 一种图像语义分割方法、装置及存储介质
CN109801325A (zh) 一种双目立体视觉系统获取视差图的方法及装置
CN113570658A (zh) 基于深度卷积网络的单目视频深度估计方法
CN111489394A (zh) 物体姿态估计模型训练方法、系统、装置及介质
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
Wang et al. Lrru: Long-short range recurrent updating networks for depth completion
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统
CN111031258B (zh) 月球车导航相机曝光参数确定方法及装置
CN106683044B (zh) 一种多通道光学探测系统的图像拼接方法、装置
CN117036756A (zh) 基于变分自动编码器的遥感图像匹配方法及系统
CN111047654A (zh) 一种基于色彩信息的高清高速视频背景建模方法
CN113111909B (zh) 一种面向训练目标视角不完备的sar目标识别的自学习方法
CN113096199B (zh) 一种基于莫顿码的点云属性预测方法、装置和介质
CN114820755A (zh) 一种深度图估计方法及系统
CN110991361B (zh) 面向高清高速视频的多通道多模态背景建模方法
CN111340838B (zh) 一种基于多种特征融合的背景时空相关滤波跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant