CN111739082B - 一种基于卷积神经网络的立体视觉无监督深度估计方法 - Google Patents

一种基于卷积神经网络的立体视觉无监督深度估计方法 Download PDF

Info

Publication number
CN111739082B
CN111739082B CN202010541511.XA CN202010541511A CN111739082B CN 111739082 B CN111739082 B CN 111739082B CN 202010541511 A CN202010541511 A CN 202010541511A CN 111739082 B CN111739082 B CN 111739082B
Authority
CN
China
Prior art keywords
network
picture
depth
loss function
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010541511.XA
Other languages
English (en)
Other versions
CN111739082A (zh
Inventor
叶昕辰
吕佳龙
徐睿
樊鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010541511.XA priority Critical patent/CN111739082B/zh
Publication of CN111739082A publication Critical patent/CN111739082A/zh
Application granted granted Critical
Publication of CN111739082B publication Critical patent/CN111739082B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于卷积神经网络的立体视觉无监督深度估计方法,属于图像处理和计算机视觉领域。本发明旨在克服现有技术的不足,提供了一种新的无监督深度估计方法,设计了一个基于卷积神经网络进行高质量深度估计的框架,该框架包括立体视觉编码器‑解码器主干网络和判别器网络,并引入双重注意力机制有效获取特征,构建深度感知损失函数训练框架,以获得高质量的深度信息。系统容易构建;程序框架易于实现,算法运行速度快。本方法利用无监督方法来估计深度信息,避免了有监督方法中真实数据难以获取的问题。

Description

一种基于卷积神经网络的立体视觉无监督深度估计方法
技术领域
本发明属于图像处理和计算机视觉领域,具体涉及一种基于卷积神经网络的立体视觉无监督深度估计方法。
背景技术
深度估计在计算机视觉领域已经成为了一项重要课题,是大量实际应用中的基础问题,例如,增强现实,物体检测等应用。随着深度学习的快速发展,许多方法已经利用卷积神经网络来估计深度图。到目前为止,使用深度卷积神经网络进行深度估计的方法主要分为两类情况:有监督方法和无监督方法。尽管有监督学习方法在深度预测方面已经取得了不错的成果,但是这些方法往往需要大量的真实深度数据,这些数据难以被深度感知设备获取。与之相对,无监督方法不需要任何深度数据,并在训练中利用立体视觉数据及对极几何约束关系,将深度估计问题转化为图像重建问题来训练网络,指导网络参数更新。基于上述,本发明设计了一个基于卷积神经网络的无监督学习框架,以立体视觉(双视点)数据为训练数据,完成高质量场景深度图的预测。
发明内容
本发明旨在克服现有技术的不足,提供了一种新的无监督深度估计方法,设计了一个基于卷积神经网络进行高质量深度估计的框架,该框架包括立体视觉编码器-解码器主干网络和判别器网络,并于编码器-解码器主干网络中引入双重注意力机制有效获取特征。构建深度感知损失函数训练框架,以获得高质量的深度信息。本发明采用卷积神经网络对深度估计任务进行建模,在不需要任何真实深度数据作为监督的情况下,利用立体视觉图像作为输入,采用无监督的形式即可得到高质量深度图,
本发明的具体技术方案为,一种基于卷积神经网络的立体视觉无监督深度估计方法,包括如下步骤:
1)准备初始数据:初始数据包括用来训练的校正双视点图片对,以及用来测试的左视点图片;
2)编码器-解码器主干网络的搭建:
对编码器-解码器主干网络进行训练,对空间尺寸相同的编码器层和解码器层之间加入跳跃连接,加强特征表示;将双重注意力机制加入到编码器-解码器主干网络;此双重注意力机制包括空间注意力模块和通道注意力模块,其中空间注意力模块用于捕获深度图局部特征的非局部相关性,通道注意力模块用于考虑通道维度上的特征相关性,两个注意力模块合并称为双重注意力机制;按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端;编码器-解码器主干网络的输入为左视点图片,输出为左右双视点图片的深度图,利用扭转函数(Warping)通过深度图和原彩色图得到合成的左右双视点彩色图,构建深度感知损失函数;以改善由左右视点图像视差产生的边缘,遮挡和平滑区域难以产生高质量深度估计结果的问题。
3)判别器网络的搭建:
将步骤2)搭建的编码器-解码器主干网络视作生成器网络,则在生成器末端加入一个判别器网络,判别器网络具有5个3×3的卷积层,下采样率为2,每次卷积后都进行批标准化(batch normalization,BN)操作;判别器网络的输入为步骤2)中得到的合成左右双视点彩色图,利用对抗损失函数区分它们和真实的原彩色图,生成器网络学习合成图和真视图之间的特征映射;让合成图更像真实图,增强主干网络合成彩色图的能力从而间接提高深度估计的质量。
4)基于步骤(2)、步骤(3)得到的卷积神经网络进行联合训练,监督方式采用构建的损失函数逐步迭代优化网络参数;当训练完毕,利用训练好的模型在测试集上进行测试,得到相应输入图片的输出结果。
进一步地,上述双重注意力机制的构建,具体包括以下步骤:
2-1)编码器网络得到的特征图
Figure BDA0002539094850000021
作为双重注意力机制的输入,其中H、W、C分别代表高度、宽度、通道数,双重注意力机制将A变形为
Figure BDA0002539094850000031
其中N=H×W,然后对B和B的转置矩阵做乘法运算,结果经过softmax激活函数得到通道注意力图
Figure BDA0002539094850000032
即S1=softmax(BTB);对S1和B做矩阵乘法并变形为
Figure BDA0002539094850000033
最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出Aa
将Aa作为空间注意力机制的输入,空间注意力机制除了softmax激活函数得到空间注意力图
Figure BDA0002539094850000034
即S2=softmax(BBT)不同外,其他步骤与通道注意力机制相同,最终得到与原特征图高度、宽度、通道数相同的新特征图,将新特征图送入解码器结构,解码器输出深度图;经实验证明,此注意力机制加在编码器-解码器主干网络的编码器末端效果提升明显,若加入到其他位置很难提升效果且会显著增加网络参数量。
进一步地,步骤4)中构建深度感知损失函数和判别器的对抗损失函数用以训练网络,具体包括以下步骤:
3-1)修正光度损失函数Lp;首先将训练数据的左图Il送入到带有双重注意力模块的编码器-译码器网络中,分别得到预测的左右视差图,在已知相机参数的情况下直接得到深度图dl、dr,利用真实的左右图Il、Ir和预测的左右深度图dl、dr通过扭曲函数(Warping)得到合成的左右图
Figure BDA0002539094850000035
现有的光度损失函数无法解决遮挡区域带来的问题,因此在此基础上进行设计,解决遮挡问题。修正的光度损失函数为
Figure BDA0002539094850000036
其中,°表示逐像素相乘,N表示每次训练的图片数量,M*=1-M,M定义为:
Figure BDA0002539094850000038
其中
Figure BDA0002539094850000039
为指示函数,ξ的定义如下,η1和η2是参数;
Figure BDA0002539094850000037
3-2)空间平滑损失函数Ls;通常,深度图主要由平滑区域和跳跃部分(深度边缘)组成。自然场景下深度图的梯度往往服从重尾分布,因而可以使用总变差(totalvariation,TV)作为一个保边正则项来建模。然而,由于TV往往不能很好地诱导梯度的稀疏性,从而导致输出的图像在平滑区域有阶梯伪影。因此,本发明提出使用广义总变差(totalgeneralized variation,TGV)来更好地刻画深度图的分布特征,得到公式:
Figure BDA0002539094850000041
其中,
Figure BDA0002539094850000042
中的i表示图片序列中的第i张,
Figure BDA0002539094850000043
中的i同理。
Figure BDA0002539094850000044
Figure BDA0002539094850000045
分别为坐标系x和y方向的二阶梯度;
3-3)左右一致性损失函数Ld,以减小视点间由于遮挡带来的误差,确保图片的一致性,公式如下:
Figure BDA0002539094850000046
其中,
Figure BDA0002539094850000047
是左扭曲视差图,可通过在生成的左视差图上应用扭曲函数获得,上标i表示图片序列的第i张;
3-4)判别器在判别真实图片与合成图片时用到了对抗损失函数,将主干网络视为生成器,其最后生成的合成图片与真实的输入图片一同送进判别器中;对抗损失函数公式如下:
Figure BDA0002539094850000048
其中p(*)表示数据*的概率分布,
Figure BDA0002539094850000049
表示期望,
Figure BDA00025390948500000410
表示判别器,这种对抗性损失促使生成器学习从合成数据到真实数据的映射,从而使合成图像与真实图像相似;
3-5)整体网络结构的损失函数定义如下:
Figure BDA0002539094850000051
其中上标l代表左视点图片,上标r代表右视点图片,α4是权重系数,LD表示深度感知损失函数,公式如下:
Figure BDA0002539094850000052
α123是权重系数。
本发明的有益效果是:
本发明基于卷积神经网络,在无监督方法的基础上,提出一种双重注意力机制,用于筛选有意义的图像特征,并根据场景的几何特征设计了一个深度感知损失函数,用来描述深度图的本质特征。最后加入判别损失函数用于得到更高质量的深度图。该发明具有以下特点:
1、系统容易构建;程序框架易于实现,算法运行速度快。
2、本方法利用无监督方法来估计深度信息,避免了有监督方法中真实数据难以获取的问题。
3、本方法提出了一种深度感知损失函数,用于识别亮度恒定假设时的遮挡区域,以适应深度图像特征。
4、本方法采用双重注意力机制模块来捕捉空间和通道维度中的特征相关性,以便更好地理解场景。
附图说明
图1是本发明提出的卷积神经网络结构图,其中Warping为扭转函数。
图2是双重注意力机制结构图,其中Softmax为激活函数。
图3是本发明的实验结果图。a)输入的彩色图像b)真实深度图c)-h)其他无监督方法产生的深度图i)本发明深度图(U-net)j)本发明深度图(Resnet)。
具体实施方式
本发明提出了一种基于卷积神经网络的立体视觉无监督深度估计方法,结合附图及实施例详细说明如下:
所述方法包括下列步骤;
1)准备初始数据:初始数据包括用来训练的已校正的左右双视点彩色图片对,以及用来测试的左视点彩色图片;
1-1)使用公开数据集,KITTI数据集(David Eigen,Christian Puhrsch,and RobFergus,“Depth map prediction from a single image using a multi-scale deepnetwork,”in NIPS,2014,pp.2366–2374.)训练、评估该发明。该数据集包含22600对训练双视点图片和697个测试图片。
2)编码器-解码器主干网络的搭建:
2-1)编码器-解码器主干网络可以使用任意主流的编码器-解码器网络结构,为获得更好的结果,本方法借鉴使用率较高的U-net结构(Hyeonwoo Noh,Seunghoon Hong,andBohyung Han,“Learning deconvolution network for semantic segmentation,”inIEEE CVPR,2015,pp.1520–1528.)或Resnet结构(He K,Zhang X,Ren S,et al.DeepResidual Learning for Image Recognition[C]//2016 IEEE Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2016.),作为编码器-解码器主干网络进行训练,对空间尺寸相同的编码器层和解码器层之间加入跳跃连接,加强特征表示。将双重注意力机制加入到编码器-解码器主干网络。此双重注意力机制包括空间注意力模块和通道注意力模块,其中空间注意力模块用于捕获深度图局部特征的非局部相关性,通道注意力模块用来考虑通道维度上的特征相关性,按通道注意力机制,空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端。编码器-解码器主干网络的输入为左视点图片,输出为左右双视点图片的深度图,利用扭转函数(Warping)通过深度图和原彩色图得到合成的左右双视点彩色图,构建深度感知损失函数改善由左右视点图像视差产生的边缘,遮挡和平滑区域难以产生高质量深度估计结果的问题。网络结构如图1所示。
2-2)双重注意力机制如图2所示,编码器网络得到的特征图
Figure BDA0002539094850000061
作为双重注意力机制的输入,其中H,W,C分别代表高度,宽度,通道数,双重注意力机制将A变形为
Figure BDA0002539094850000071
其中N=H×W,然后对B和B的转置矩阵做乘法运算,结果经过softmax激活函数可以得到或通道注意力图
Figure BDA0002539094850000072
即S1=softmax(BTB)。接下来,对S1和B做矩阵乘法并变形为
Figure BDA0002539094850000073
最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出Aa。同理将Aa作为空间注意力机制的输入,空间注意力机制除softmax激活函数得到空间注意力图
Figure BDA0002539094850000074
即S2=softmax(BBT)不同外,其他步骤相同,最终得到与原特征图高度、宽度、通道数相同的新特征图,将新特征图送入解码器结构,解码器输出深度图。经实验证明,此注意力机制加在编码器-解码器主干网络的编码器末端效果提升明显,若加入到其他位置很难提升效果且会显著增加网络参数量。
3)判别器网络的搭建:
将步骤2)搭建的编码器-解码器主干网络视作生成器网络,则在生成器末端可以加入一个判别器网络,判别器网络具有5个3×3的卷积层,下采样率为2,每次卷积后都有批标准化(batch normalization,BN)操作。判别器网络的输入为步骤2)中得到的合成左右双视点彩色图,利用对抗损失函数区分它们和真实的原彩色图,使得生成器网络学习合成图和真视图之间的特征映射,让合成图更像真实图,增强主干网络合成彩色图的能力从而间接提高深度估计的质量。
4)基于步骤2)、步骤3)得到的卷积神经网络进行训练。
对于训练,批大小设置为8并使用β1=0.9,β2=0.999的Adam优化方法进行优化,初始学习率设为10-6。权重因子α1、α2、α3、α4分别设置为0.85、0.1、1和0.1。η1和η2分别设为0.01和0.5。当训练完毕,即可以利用训练好的模型在测试集上进行测试,得到相应输入图片的输出结果。
5)深度感知损失函数公式和判别器的对抗损失函数公式:
本发明为解决普通无监督损失函数在边缘,遮挡和平滑区域难以产生高质量估计结果的问题,构建深度感知损失函数和判别器的对抗损失函数用以训练网络。本节5-1)、5-2)、5-3)的三个损失函数构成深度感知损失函数,5-4)说明对抗损失函数。所有损失函数以左图的损失函数构建作为示例,右图和左图为对称关系,损失函数构建方式与左图一样。
5-1)设计修正的光度损失函数Lp。由图1所示的网络结构流程可知,首先将训练数据的左图Il送入到带有双重注意力模块的编码器-译码器网络中,分别得到预测的左右视差图,在已知相机参数的情况下可以直接得到深度图dl、dr,利用真实的左右图Ir、Il和预测的左右深度图dl、dr通过扭曲函数(Warping)来得到合成的左右图
Figure BDA0002539094850000081
现有的光度损失函数无法解决遮挡区域带来的问题,因此我们在此基础上进行设计,解决遮挡问题。修正的光度损失函数为
Figure BDA0002539094850000082
其中,°表示逐像素相乘,N表示每次训练的图片数量,M*=1-M,M定义为:
Figure BDA0002539094850000089
其中
Figure BDA00025390948500000810
为指示函数,ξ的定义如下,η1和η2是参数。
Figure BDA0002539094850000083
5-2)设计空间平滑损失函数Ls。通常,深度图主要由平滑区域和跳跃部分(深度边缘)组成。自然场景下深度图的梯度往往服从重尾分布,因而可以使用总变差(totalvariation,TV)作为一个保边正则项来建模。然而,由于TV往往不能很好地诱导梯度的稀疏性,从而导致输出的图像在平滑区域有阶梯伪影。因此,本发明提出使用广义总变差(totalgeneralized variation,TGV)来更好地刻画深度图的分布特征,得到公式:
Figure BDA0002539094850000084
其中,
Figure BDA0002539094850000085
中的i表示图片序列中的第i张,
Figure BDA0002539094850000086
中的i同理。
Figure BDA0002539094850000087
Figure BDA0002539094850000088
分别为坐标系x和y方向的二阶梯度。
5-3)设计左右一致性损失函数Ld,以减小视点间由于遮挡带来的误差,确保图片的一致性,公式如下:
Figure BDA0002539094850000091
其中,
Figure BDA0002539094850000092
是左扭曲视差图,可通过在生成的左视差图上应用扭曲函数获得,上标i表示图片序列的第i张。
5-4)判别器在判别真实图片与合成图片时用到了对抗损失函数,我们将主干网络视为生成器,对抗损失函数公式如下:
Figure BDA0002539094850000093
其中p(*)表示数据*的概率分布,
Figure BDA0002539094850000094
表示期望,
Figure BDA0002539094850000095
表示判别器,这种对抗性损失促使生成器学习从合成数据到真实数据的映射,从而使合成图像与真实图像相似。
5-5)综上所示,整体网络结构的损失函数定义如下:
Figure BDA0002539094850000096
其中上标l代表左视点图片,上标r代表右视点图片,α4是权重系数,LD表示深度感知损失函数,公式如下:
Figure BDA0002539094850000097
α123是权重系数。
本实施的最终结果如图3所示,其中(a)为输入的彩色图像,(b)真实深度图,(c)-(h)为其他无监督方法产生的深度图,(i)为使用U-net的本方法产生的深度图,(j)为使用Resnet的本方法产生的深度图。通过深度图的对比,可以发现本方法在无监督方式下达到了最好的效果。

Claims (3)

1.一种基于卷积神经网络的立体视觉无监督深度估计方法,其特征在于,所述方法包括下列步骤;
1)准备初始数据:初始数据包括用来训练的校正双视点图片对,以及用来测试的左视点图片;
2)编码器-解码器主干网络的搭建:
对编码器-解码器主干网络进行训练,对空间尺寸相同的编码器层和解码器层之间加入跳跃连接,加强特征表示;将双重注意力机制加入到编码器-解码器主干网络;此双重注意力机制包括空间注意力模块和通道注意力模块,其中空间注意力模块用于捕获深度图局部特征的非局部相关性,通道注意力模块用于考虑通道维度上的特征相关性,两个注意力模块合并称为双重注意力机制;按通道注意力机制、空间注意力机制的顺序加到编码器-解码器主干网络的编码器末端;编码器-解码器主干网络的输入为左视点图片,输出为左右双视点图片的深度图,利用扭转函数通过深度图和原彩色图得到合成的左右双视点彩色图,构建深度感知损失函数;
3)判别器网络的搭建:
将步骤2)搭建的编码器-解码器主干网络视作生成器网络,则在生成器末端加入一个判别器网络,判别器网络具有5个3×3的卷积层,下采样率为2,每次卷积后都进行批标准化操作;判别器网络的输入为步骤2)中得到的合成左右双视点彩色图,利用对抗损失函数区分它们和真实的原彩色图,生成器网络学习合成图和真视图之间的特征映射;
4)基于步骤(2)、步骤(3)得到的卷积神经网络进行联合训练,监督方式采用构建的损失函数逐步迭代优化网络参数;当训练完毕,利用训练好的模型在测试集上进行测试,得到相应输入图片的输出结果。
2.如权利要求1所述的基于卷积神经网络的立体视觉无监督深度估计方法,其特征在于,双重注意力机制的构建,具体包括以下步骤:
2-1)编码器网络得到的特征图
Figure FDA0002539094840000011
作为双重注意力机制的输入,其中H、W、C分别代表高度、宽度、通道数,双重注意力机制将A变形为
Figure FDA0002539094840000021
其中N=H×W,然后对B和B的转置矩阵做乘法运算,结果经过softmax激活函数得到通道注意力图
Figure FDA0002539094840000022
即S1=softmax(BTB);对S1和B做矩阵乘法并变形为
Figure FDA0002539094840000023
最后将原特征图A与U逐像素地加和得到经过通道注意力机制的输出Aa
将Aa作为空间注意力机制的输入,空间注意力机制除了softmax激活函数得到空间注意力图
Figure FDA0002539094840000024
即S2=softmax(BBT)不同外,其他步骤与通道注意力机制相同,最终得到与原特征图高度、宽度、通道数相同的新特征图,将新特征图送入解码器结构,解码器输出深度图。
3.如权利要求1所述的基于卷积神经网络的立体视觉无监督深度估计方法,其特征是,步骤4)中构建深度感知损失函数和判别器的对抗损失函数用以训练网络,具体包括以下步骤:
3-1)修正光度损失函数Lp;首先将训练数据的左图Il送入到带有双重注意力模块的编码器-译码器网络中,分别得到预测的左右视差图,在已知相机参数的情况下直接得到深度图dl、dr,利用真实的左右图Il、Ir和预测的左右深度图dl、dr通过扭曲函数得到合成的左右图
Figure FDA0002539094840000025
修正的光度损失函数为
Figure FDA0002539094840000026
其中,°表示逐像素相乘,N表示每次训练的图片数量,M*=1-M,M定义为:
Figure FDA0002539094840000029
其中
Figure FDA00025390948400000210
为指示函数,ξ的定义如下,η1和η2是参数;
Figure FDA0002539094840000027
3-2)空间平滑损失函数Ls
Figure FDA0002539094840000028
其中,
Figure FDA0002539094840000031
中的i表示图片序列中的第i张,
Figure FDA0002539094840000032
中的i同理;
Figure FDA0002539094840000033
Figure FDA0002539094840000034
分别为坐标系x和y方向的二阶梯度;
3-3)左右一致性损失函数Ld,以减小视点间由于遮挡带来的误差,确保图片的一致性,公式如下:
Figure FDA0002539094840000035
其中,
Figure FDA0002539094840000036
是左扭曲视差图,可通过在生成的左视差图上应用扭曲函数获得,上标i表示图片序列的第i张;
3-4)判别器在判别真实图片与合成图片时用到了对抗损失函数,将主干网络视为生成器,其最后生成的合成图片与真实的输入图片一同送进判别器中;对抗损失函数公式如下:
Figure FDA0002539094840000037
其中p(*)表示数据*的概率分布,
Figure FDA0002539094840000038
表示期望,
Figure 1
表示判别器,这种对抗性损失促使生成器学习从合成数据到真实数据的映射,从而使合成图像与真实图像相似;
3-5)整体网络结构的损失函数定义如下:
Figure FDA00025390948400000310
其中上标l代表左视点图片,上标r代表右视点图片,α4是权重系数,LD表示深度感知损失函数,公式如下:
Figure FDA00025390948400000311
α123是权重系数。
CN202010541511.XA 2020-06-15 2020-06-15 一种基于卷积神经网络的立体视觉无监督深度估计方法 Expired - Fee Related CN111739082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010541511.XA CN111739082B (zh) 2020-06-15 2020-06-15 一种基于卷积神经网络的立体视觉无监督深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010541511.XA CN111739082B (zh) 2020-06-15 2020-06-15 一种基于卷积神经网络的立体视觉无监督深度估计方法

Publications (2)

Publication Number Publication Date
CN111739082A CN111739082A (zh) 2020-10-02
CN111739082B true CN111739082B (zh) 2022-11-18

Family

ID=72649109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010541511.XA Expired - Fee Related CN111739082B (zh) 2020-06-15 2020-06-15 一种基于卷积神经网络的立体视觉无监督深度估计方法

Country Status (1)

Country Link
CN (1) CN111739082B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102617344B1 (ko) * 2020-12-30 2023-12-28 한국기술교육대학교 산학협력단 비지도 학습 기반의 깊이 예측 방법 및 이를 이용하는 시스템
CN112927175B (zh) * 2021-01-27 2022-08-26 天津大学 一种基于深度学习的单视点合成方法
CN112950697B (zh) * 2021-02-02 2024-04-16 东南大学 一种基于cbam的单目无监督深度估计方法
CN112967327A (zh) * 2021-03-04 2021-06-15 国网河北省电力有限公司检修分公司 基于联合自注意力机制的单目深度方法
US11967096B2 (en) 2021-03-23 2024-04-23 Mediatek Inc. Methods and apparatuses of depth estimation from focus information
CN114119698B (zh) * 2021-06-18 2022-07-19 湖南大学 基于注意力机制的无监督单目深度估计方法
CN113643212B (zh) * 2021-08-27 2024-04-05 复旦大学 一种基于图神经网络的深度图降噪方法
CN114170286B (zh) * 2021-11-04 2023-04-28 西安理工大学 一种基于无监督深度学习的单目深度估计方法
CN114463420A (zh) * 2022-01-29 2022-05-10 北京工业大学 一种基于注意力卷积神经网络的视觉里程计算法
CN114998683B (zh) * 2022-06-01 2024-05-31 北京理工大学 一种基于注意力机制的ToF多径干扰去除方法
CN114978264B (zh) * 2022-06-29 2023-07-25 内蒙古大学 基于太赫兹mimo系统的混合预编码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741383A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于空洞卷积和半监督学习的图像深度估计系统与方法
CN110490919B (zh) * 2019-07-05 2023-04-18 天津大学 一种基于深度神经网络的单目视觉的深度估计方法

Also Published As

Publication number Publication date
CN111739082A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111739082B (zh) 一种基于卷积神经网络的立体视觉无监督深度估计方法
CN111739078B (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN111260560B (zh) 一种融合注意力机制的多帧视频超分辨率方法
CN113177882A (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN112614070B (zh) 一种基于DefogNet的单幅图像去雾方法
CN104954780A (zh) 一种适用于高清2d/3d转换的dibr虚拟图像修复方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN110930500A (zh) 一种基于单视角视频的动态头发建模方法
CN112785502B (zh) 一种基于纹理迁移的混合相机的光场图像超分辨率方法
CN112019828A (zh) 一种视频的2d到3d的转换方法
CN117314808A (zh) 一种结合Transformer与CNN双编码器的红外与可见光图像融合方法
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
CN110415169A (zh) 一种深度图超分辨率重建方法、系统及电子设备
CN117576179A (zh) 多尺度细节特征增强的矿井图像单目深度估计方法
CN112215140A (zh) 一种基于时空对抗的3维信号处理方法
CN114820745B (zh) 单目视觉深度估计系统、方法、计算机设备及计算机可读存储介质
CN114881858A (zh) 基于多注意力机制融合的轻量级双目图像超分辨率方法
CN115170921A (zh) 一种基于双边网格学习和边缘损失的双目立体匹配方法
CN115705493A (zh) 一种基于多特征注意力神经网络的图像去雾建模方法
CN114022371A (zh) 基于空间和通道注意力残差网络的去雾装置及其去雾方法
CN114140334A (zh) 一种基于改进生成对抗网络的复杂煤矿图像去雾方法
CN115222606A (zh) 图像处理方法、装置、计算机可读介质及电子设备
CN114513684B (zh) 视频画质增强模型的构建方法、视频画质增强方法及装置
CN118014860B (zh) 一种基于注意力机制的多源多尺度图像融合方法与装置
CN113643212B (zh) 一种基于图神经网络的深度图降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221118

CF01 Termination of patent right due to non-payment of annual fee