CN112767467B - 一种基于自监督深度学习的双图深度估计方法 - Google Patents

一种基于自监督深度学习的双图深度估计方法 Download PDF

Info

Publication number
CN112767467B
CN112767467B CN202110095247.6A CN202110095247A CN112767467B CN 112767467 B CN112767467 B CN 112767467B CN 202110095247 A CN202110095247 A CN 202110095247A CN 112767467 B CN112767467 B CN 112767467B
Authority
CN
China
Prior art keywords
feature
map
twin
image
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110095247.6A
Other languages
English (en)
Other versions
CN112767467A (zh
Inventor
郑健青
黄保茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110095247.6A priority Critical patent/CN112767467B/zh
Publication of CN112767467A publication Critical patent/CN112767467A/zh
Application granted granted Critical
Publication of CN112767467B publication Critical patent/CN112767467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于自监督深度学习的双图深度估计方法,相比现有的深度学习双图深度估计技术,在应用场景中该发明通过两张图像所提取特征的对应关系内化得到基础矩阵参数,从而无须相机标定参数和位置姿态信息,提高了使用灵活性和适用价值,其中交互注意力机制实现了两张图像之间不同尺度上特征的匹配与融合,而嵌入的最优传输算法解决了这一过程中的特征筛选问题,提升了现有方法中特征提取和匹配的准确性和稳定性,其中二维坐标被额外串联于特征图中改善卷积神经网络对空间感知不足问题,进一步提高现有方法的精确性,另外相比于现有的自监督学习算法,该发明结合多个损失函数项避免训练陷入局部极值,提高了学习过程的稳健性。

Description

一种基于自监督深度学习的双图深度估计方法
技术领域
本发明涉及图像数据采集技术领域,特别是一种基于自监督深度学习的双图深度估计方法。
背景技术
图像的深度估计作为计算机视觉领域里通过二维图像获得三维信息的一种重要手段,被广泛应用于无人机/无人车控制、三维场景重建、手术机器人导航等方面,通常,根据使用图像数量分为单图深度估计方法和多图深度估计方法。
其中单图深度估计方法通过单张图片实现深度估计,由于完全依赖于该图像中观测对象的轮廓、纹理、光源等对观测物体的先验信息,从而导致容易缺失泛用性和对噪音的稳健性。
相比之下多图深度估计方法可以使用单个或多个摄像头,从不同位置角度观测同一物体,通过同一空间点在不同视角下的二维图像位置来估计到该空间点的深度。由于多图深度估计方法中包括双图深度估计方法,并且多图深度估计方法通常是基于双图方法拓展的,所以,以下在不失通用性前提下仅讨论双图深度估计方法。目前的双图深度估计方法主要分为传统算法和深度学习算法,其中深度学习算法可以根据训练过程是否需要标记深度图数据分为监督学习算法和自监督学习算法。自监督学习算法可以减少标记数据所需成本,但是现有的自监督学习算法通常往往只使用基于图像再投影的损失函数而容易陷入局部最优解。
双图深度估计过程通常包括三个部分:1)提取二维图像特征;2)寻找同一空间点的图像特征对应关系;3)通过两个视角的对应图像坐标来估测到该空间点的深度距离。
在第一部分中,传统算法基于特征点线面的提取方法(如SIFT、SURF),通常需要根据使用的具体场景进行调整,缺少普适性。相对来说深度学习算法如卷积神经网络可以根据不同场景数据来自适应调整,但是监督学习算法通常需要大量的标记数据进行训练而增加成本。
第二部分中一大难点在于特征筛选,相机视野限制造成了存在没有同时被两张图像观测到的特征,传统算法通常需要迭代运算(如Ransac)来排除这些无法匹配的特征点,但是会因此消耗较多时间而无法进行实时任务。而目前已知的深度学习算法还尚未有效解决这一问题。
在第三部分中,现有的双图深度学习算法大多需要在使用前通过相机标定得到对应参数,并要求在深度估计过程中两张图片拍摄中相机的相对位置和姿态,这极大的限制了其应用场景。
另外目前双图深度学习方法通常依赖于卷积神经网络对图像进行处理,其中有两种主要方式:(1)将两张图像串联后处理,(2)用双生网络结构,即共享权重的双分支网络结构。其中(1)由于卷积操作的感受野大小限制了两张图像的视差大小,因此限制了双图方法相对单图方法的收益;而(2)中现有双生网络分支之间缺乏有效的特征融合,因此限制了该结构在第二部分特征匹配中的表现。
发明内容
本发明的目的是针对现有的双图深度估计方法所存在的不足,提供一种基于自监督的端到端的深度学习算法的双图深度估计方法。
本发明的基于自监督深度学习的双图深度估计方法,特征在于是通过以下措施来实现的:
步骤1.搭建一个包含双生编码器-双生解码器Siamese Encoder– SiameseDecode结构、包括两个并行的网络分支的卷积神经网络模型,对应两个并行的网络分支分别输入左图像和右图像,输出得到对应的左深度图和右深度图,依照网络分支的阶段区分得到双生编码器、特征融合器和双生解码器三个部分,其中:
所述的双生编码器和双生解码器中两个分支间的所述卷积层、反卷积层参数可以共享,以减少网络参数数量并加速网络训练,而中间特征融合器部分中的卷积层和激活层则不共享;
所述的双生编码器结构中的若干个卷积层、激活层和下采样层,被用于提取两个图像不同尺度的特征,得到特征图;
所述的特征融合器部分中的卷积层和激活层,被用于将经过双生编码器多次下采样后得到的左右特征图通过串联或相加操作进行抽象特征的融合;
所述的双生解码器结构中的若干个卷积层、激活层和反卷积层或上采样层,被用于恢复特征图的分辨率,以提供更多空间特征;
在所述的双生编码器和所述的双生解码器之间,用跃接特征图连接每一个对应尺度模块,以确保证其不同分辨率特征和对应坐标信息的传递;
在所述的卷积神经网络模型的两个并行分支之间,用交互注意力MutualAttention机制实现各个尺度上两个特征图之间的相似特征的匹配与融合,对矩阵变维后的左图特征向量组Xl和右图特征向量组Xr相互进行查找匹配和融合:
Yr→l=Φ(Xl,Xr)Ψ(Xr)
Yl→r=Φ(Xr,Xl)Ψ(Xl)
该公式通过匹配函数Φ得到第二个输入中的每一个向量到第一个输入中每一个向量的匹配矩阵,通过特征变换函数Ψ实现两个分支特征图之间对应关系的特征空间变换,最终得到右图到左图的融合特征向量组Yr→l和左图到右图的融合特征向量组Yl→r
在所述的匹配函数Φ中,可用最优传输算法于特征模糊匹配问题,并通过排除因为未同时出现在两个特征图里而无法匹配的特征完成特征筛选,其中可用迭代Sinkhorn算法计算最优传输问题的近似数值解,使得最优传输算法得以嵌入神经网络中;
所述的卷积层中特征图的每个像素的二维坐标数值都可以作为两层额外串联的特征图进行卷积运算,以加强网络对空间信息的利用;
步骤2.利用步骤1中搭建的所述卷积神经网络模型,通过相机,对在已知位置、角度及标定参数下观测到的多张图像进行训练,先将左右图像输入网络,再输出对应深度图,计算得到损失函数,并通过优化该损失函数来训练获得网络参数;
在所述的卷积神经网络模型的训练过程中,可以采用自监督模式,从而减少人工标记的成本,仅需要对应的相机标定参数,包括内参数K和外参数T,优化一个包含图像再投影差异损失
Figure GDA0003853726970000041
一致性损失
Figure GDA0003853726970000042
和光滑度损失
Figure GDA0003853726970000043
的损失函数
Figure GDA0003853726970000044
Figure GDA0003853726970000045
其中α、β和γ分别是三者的权重,所述图像再投影差异损失项
Figure GDA0003853726970000046
计算左右图像Il,Ir与右左图像Ir,Il在对应深度图Dr,Dl位置被投影至左右相机像平面后的差异,其中包括SSIM图像结构相似度差异和曼哈顿距离对应像素差值;一致性损失项
Figure GDA0003853726970000047
计算左右深度图Dl,Dr在三维空间中的差异性(如三维点云距离Chamfer距离)或投影至同一校正像平面的差异性(如深度图再投影差值);光滑度损失项
Figure GDA0003853726970000048
计算左右图所预测深度的光滑程度。
步骤3.经训练完成的所述卷积神经网络模型,用来对两个位置姿态相机所观测到的图像进行深度估计。
本发明的有益技术效果是:实现了基于自监督端到端学习算法的双图深度估计,相比现有的深度学习双图深度估计技术,在应用场景中该发明通过两张图像所提取特征的对应关系内化得到观测的相对位置姿态变换和标定参数,从而无须观测的位置姿态,提高了使用的灵活性和适用价值;其中交互注意力机制实现了左右图之间不同尺度的相似特征的匹配与融合,而嵌入的最优传输算法解决了这一过程中的特征筛选问题,提升了深度学习方法对于图像特征提取和匹配的准确性及稳定性;其中二维坐标数值被额外串联于特征图中改善了卷积神经网络对空间学习感知不足的问题,进一步提高了深度学习深度估计方法的精确性;另外相比于现有的自监督学习算法,该发明结合多个损失函数项避免训练陷入局部极值,提高了学习过程的稳健性。
附图说明
图1是本发明实施例的神经网络结构模块总体结构示意图;
图2是本发明实施例中双生下采样模块结构示意图;
图3是本发明实施例中交互注意的双生下采样模块结构示意图;
图4是本发明实施例中抽象特征融合模块结构示意图;
图5是本发明实施例中交互注意的双生上采样模块结构示意图;
图6是本发明实施例中双生上采样模块结构示意图。
图中:
1.双生下采样模块 2.交互注意的双生下采样模块 3.抽象特征融合模块 4.交互注意的双生上采样模块 5.双生上采样模块
具体实施方式
下面结合附图和典型实施例对本发明作进一步说明。
本发明一种基于自监督深度学习的双图深度估计方法,特征在于是通过以下措施来实现的:
步骤1.搭建一个包含双生编码器-双生解码器Siamese Encoder– SiameseDecoder结构、包括两个并行的网络分支的卷积神经网络模型,对应两个并行的网络分支分别输入左图像和右图像,输出得到得到对应的左深度图和右深度图,依照网络分支的阶段区分得到双生编码器、特征融合器和双生解码器三个部分,其中:
在图1中,所述的卷积神经网络模型主要包括:一个或多个的双生下采样模块1、交互注意的双生下采样模块2、抽象特征融合模块3、交互注意的双生上采样模块4、双生上采样模块5,所述的一个或多个双生下采样模块1、交互注意的双生下采样模块2、交互注意的双生上采样模块4、抽象特征融合模块3 和双生上采样模块5依次级联;
所有的双生下采样模块1和交互注意的双生下采样模块2组成双生编码器部分,左右图像被输入双生编码器中并行提取其不同尺度的左右特征图,所述特征图的每一个对应该位置向量用来表征该像素或区域的特征,通过交互注意力机制实现左右特征图之间在不同尺度的匹配与融合,经过多次采样后得到左右的抽象特征图被输出至所述特征融合器,而其它尺度的特征图作为跃接特征图输出至双生解码器中。
在图2中,所述的双生下采样模块1包括多个卷积层、激活层、下采样层,输入图像或特征图,输出卷积并采样后的特征图,可以通过级联多个双生下采样模块提取两个图像不同尺度的特征。
在图3中,所述的交互注意的双生下采样模块2包括多个卷积层、激活层、下采样层及交互注意力层,基于双生下采样模块基础上,嵌入交互注意力层来匹配两个图像之间非局部的相似特征并进行融合;
所述特征融合器部分仅包括所述抽象特征融合模块3,在融合左右分支多次采样后的抽象特征图后,输出融合后的左右特征图至双生解码器;
在图4中,所述的抽象特征融合模块3包括卷积层和激活层,将经过多次下采样后的左特征图和右特征图串联后,分别通过两个权值不共享的卷积层和激活层将左右图的抽象特征进行融合;
所述双生解码器由所有的交互注意的双生上采样模块4、双生上采样模块 5组成,输入融合后的抽象特征图与不同尺度的跃接特征图,通过交互注意力机制匹配与融合特征后计算对应图像深度;
在图5中,所述的交互注意的双生上采样模块4包括多个卷积层、激活层、反卷积层及交互注意力层,基于交互注意力层进行特征融合,并利用反卷积层和跃接特征图恢复特征图的分辨率;
在图6中,所述的双生上采样模块5包括多个卷积层、激活层、反卷积层,利用反卷积层和跃接特征图恢复特征图的分辨率并最终计算对应深度;
双生下采样模块1,交互注意的双生下采样模块2,交互注意的双生上采样模块4和双生上采样模块5中的卷积和反卷积在左右两个分支之间共享权重,而抽象特征融合模块3中左右分支之间则不共享;
在所述卷积神经网络模型的具体设计中,双生下采样模块1和交互注意的双生下采样模块2之间可以相互替换,交互注意的双生上采样模块4和双生上采样模块5可以相互替换,其中为了使输出深度图分辨率和输入图像一致,双生下采样模块1和交互注意的双生下采样模块2数量之和需要与交互注意的双生上采样模块4和双生上采样模块5数量之和保持一致;
所述的交互注意力层将矩阵变维后的左图特征向量组Xl和右图特征向量组Xr相互匹配和融合:
Yr→l=Φ(Xl,Xr)Ψ(Xr)
Yl→r=Φ(Xr,Xl)Ψ(Xl)
其中
Figure GDA0003853726970000071
分别是左右特征图的所有特征向量所组成的矩阵,该公式通过匹配函数Φ得到第二个输入的每一个向量到第一个输入的每一个向量的匹配矩阵,通过特征变换函数Ψ实现两个分支特征图之间对应关系的特征空间变换,最终得到右图到左图的融合特征向量组Yr→l和左图到右图的融合特征向量组Yl→r,如图3和图5中所示,在实施例中融合特征向量组被重新变维回特征图维度后与其对应特征图串联;
在所述匹配函数Φ中,最优传输算法可以被用于特征模糊匹配问题并完成特征筛选:
Figure GDA0003853726970000081
s.t.Mu=σ2(X2),MTu=σ2(X1)
其中||·||1是曼哈顿(L1)范数,σ1依次包括卷积层、激活层和特征向量的欧几里得(L2)范数正则化操作,σ2依次包括卷积层和激活层,u表示一个元素全部为1的向量,⊙表示哈达玛(Hadamard)乘法运算,其中Sinkhorn算法可以用于计算最优传输问题的近似数值解,使得最优传输算法得以嵌入神经网络中;
在本实施例的所述特征变换函数Ψ使用了一个线性变换:
Ψ(X)=WX+b
其中W,b分别是可训练的矩阵和向量参数,该操作也可以替换为:对矩阵变维前特征图进行1×1卷积核的有偏置卷积操作:
在本实施例中,所述卷积层,当特征图边长大于2时,卷积核均采用3×3大小,否则采用1×1,在3×3卷积核中空洞间隙0、2被交替采用,以扩展感受野范围,并且每次卷积前外圈会插补0数值,以保证卷积操作不改变特征图维度大小,另外特征图的每个像素的二维坐标数值都作为两层额外串联的特征图进行卷积运算,以加强网络对空间信息的利用;
在本实施例中,所述反卷积层可以等效为:在特征图每个相邻像素间和外侧插补一排/列0数值,然后进行空洞间隙为0的3×3卷积核的卷积操作;
在本实施例中所述激活层,激活函数选用了修正线性单元(ReLU)函数: ReLU(x)=max(0,x)。
步骤2.利用步骤1中搭建的所述卷积神经网络模型,通过相机,对在已知位置、角度及标定参数下观测到的多张图像进行训练,先将左右图像输入网络,再输出对应深度图,计算得到损失函数,并通过优化该损失函数来训练获得网络参数;
在所述的神经网络模型的训练过程中,可以采用自监督模式,从而减少人工标记的成本,仅需要对应的相机标定参数,包括内参数K和外参数T,优化一个包含图像再投影差异损失
Figure GDA0003853726970000091
一致性损失
Figure GDA0003853726970000092
和光滑度损失
Figure GDA0003853726970000093
的损失函数
Figure GDA0003853726970000099
Figure GDA0003853726970000094
其中α、β和γ分别是三者的权重;
在本实施例的所述图像再投影差异损失项
Figure GDA0003853726970000095
中,计算得到右左图像Ir,Il的每个像素在对应深度图Dr,Dl所预测的位置上投影在左右相机像平面图像,与左右图像Il,Ir的图像结构相似性(SSIM)误差与曼哈顿(L1)距离的加权之和:
Figure GDA0003853726970000096
其中projK,T(·,·)是投影函数根据第二个输入的空间位置,将第一个输入矩阵投影到对应平面中,并线性插值得到另外一个相机像平面的对应矩阵,α12分别是是权重,图像结构相似性(SSIM)受观测对象物体纹理影响,容易陷入局部极值,而通常光度图像受到光线、相机角度和材质漫反射系数等因素影响,使得投影图像的曼哈顿(L1)距离无法精准刻画空间点的对应关系,因此一致性损失项
Figure GDA0003853726970000097
被同时使用以解决该问题;
在本实施例的所述一致性损失项
Figure GDA0003853726970000098
中,计算得到右左图的每个像素在对应深度图Dr,Dl所预测的空间点位置上到左右相机像平面图像的投影距离,与左右图像对应的估计深度值的曼哈顿距离(L1差值范数):
Figure GDA0003853726970000101
使得左右图像估计的深度在空间位置中保持一致性,另外虽然该实施例中未加入,但是三维点云距离如Chamfer距离也可以在此使用;
在本实施例的所述光滑度损失项
Figure GDA0003853726970000102
中,计算得到估计的深度图里三维形状突变,并通过图像边缘进行指数加权,用以减少非物体边缘上的深度突变导致的误差:
Figure GDA0003853726970000103
其中
Figure GDA0003853726970000104
是一阶梯度差分算子,可以用横向和纵向两个索贝尔(sobel)卷积核实现。
步骤3.经训练完成的所述卷积神经网络模型,用来对两个位置姿态相机所观测到的图像进行深度估计。
在本实施例中,所述的神经网络结构被分别在KITTI2020数据集和一个医学内窥镜数据集Endovis中应用,并取得超过现有其他相关方法的结果,证明了本发明的通用性和实用性。
以上所述为本发明的一个实施例,但本发明范围并不局限于此,不仅可用于双图深度估计,还可用于包括其他基于多个图片的深度估计,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (5)

1.一种基于自监督深度学习的双图深度估计方法,其特征在于是通过以下措施来实现:
步骤1.搭建一个包含双生编码器-双生解码器Siamese Encoder-Siamese Decoder结构、包括两个并行网络分支的卷积神经网络模型,对应两个并行网络分支分别输入左图像和右图像,输出得到对应的左深度图和右深度图,依照网络分支的阶段区分得到双生编码器、特征融合器和双生解码器三个部分,其中:
所述的双生编码器结构中的若干个卷积层、激活层和下采样层,被用于提取两个图像不同尺度的特征,得到特征图;
所述的特征融合器部分中的卷积层和激活层,被用于将经过双生编码器多次下采样后得到的左右特征图通过串联或相加操作进行抽象特征的融合;
所述的双生解码器结构中的若干个卷积层、激活层和反卷积层或上采样层,被用于恢复特征图的分辨率,以提供更多空间特征;
在所述的双生编码器和所述的双生解码器之间,用跃接特征图连接每一个对应尺度模块,以保证其不同分辨率特征和对应坐标信息的传递;
在所述的卷积神经网络模型的两个并行分支之间,用交互注意力机制MutualAttention实现各个尺度上两个特征图之间的相似特征的匹配与融合,对矩阵变维后的左图特征向量组Xl和右图特征向量组Xr相互进行查找匹配和融合:
Yr→l=Φ(Xl,Xr)Ψ(Xr)
Yl→r=Φ(Xr,Xl)Ψ(Xl)
该公式通过匹配函数Φ得到第二个输入中的每一个向量到第一个输入中每一个向量的匹配矩阵,通过特征变换函数Ψ实现两个分支特征图之间对应关系的特征空间变换,最终得到右图到左图的融合特征向量组Yr→l和左图到右图的融合特征向量组Yl→r
步骤2.利用步骤1中搭建的所述卷积神经网络模型,通过相机,对在已知位置、角度及标定参数下观测到的多张图像进行训练,先将左右图像输入网络,再输出对应深度图,计算得到损失函数,并通过优化该损失函数来训练获得网络参数;
步骤3.经训练完成的所述卷积神经网络模型,用来对两个位置姿态相机所观测到的图像进行深度估计。
2.根据权利要求1所述的基于自监督深度学习的双图深度估计方法,其特征在于所述的双生编码器和双生解码器中两个分支间的所述卷积层、反卷积层参数共享,以减少网络参数数量并加速网络训练,而中间特征融合器部分中的卷积层和激活层则不共享。
3.根据权利要求1所述的基于自监督深度学习的双图深度估计方法,其特征在于所述的卷积层中特征图的每个像素的二维坐标数值都作为两层额外串联的特征图进行卷积运算,以加强网络对空间信息的利用。
4.根据权利要求1所述的基于自监督深度学习的双图深度估计方法,其特征在于:在所述的匹配函数Φ中,采用最优传输算法于特征模糊匹配问题,并通过排除因为未同时出现在两个特征图里而无法匹配的特征完成特征筛选,采用迭代Sinkhorn算法计算最优传输问题的近似数值解,使得最优传输算法得以嵌入神经网络中。
5.根据权利要求1所述的基于自监督深度学习的双图深度估计方法,其特征在于:在步骤2所述的神经网络模型的训练过程中,采用自监督模式,从而减少人工标记的成本,仅需要对应的相机标定参数,包括内参数K和外参数T,优化一个包含图像再投影差异损失
Figure FDA0003853726960000031
一致性损失
Figure FDA0003853726960000032
和光滑度损失
Figure FDA0003853726960000033
的损失函数
Figure FDA0003853726960000034
Figure FDA0003853726960000035
其中α、β和γ分别是三者的权重,所述图像再投影差异损失项
Figure FDA0003853726960000036
计算左右图像Il,Ir与右左图像Ir,Il在对应深度图Dr,Dl位置被投影至左右相机像平面后的差异,其中包括:SSIM结构相似性差异和曼哈顿距离的对应像素差值;一致性损失项
Figure FDA0003853726960000037
计算左右深度图Dl,Dr在三维空间中的差异性,包括三维点云距离,或投影至同一校正像平面的差异性和深度图再投影差值;光滑度损失项
Figure FDA0003853726960000038
计算左右图所预测深度的光滑程度。
CN202110095247.6A 2021-01-25 2021-01-25 一种基于自监督深度学习的双图深度估计方法 Active CN112767467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110095247.6A CN112767467B (zh) 2021-01-25 2021-01-25 一种基于自监督深度学习的双图深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110095247.6A CN112767467B (zh) 2021-01-25 2021-01-25 一种基于自监督深度学习的双图深度估计方法

Publications (2)

Publication Number Publication Date
CN112767467A CN112767467A (zh) 2021-05-07
CN112767467B true CN112767467B (zh) 2022-11-11

Family

ID=75707092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110095247.6A Active CN112767467B (zh) 2021-01-25 2021-01-25 一种基于自监督深度学习的双图深度估计方法

Country Status (1)

Country Link
CN (1) CN112767467B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450394B (zh) * 2021-05-19 2022-12-06 浙江工业大学 一种基于Siamese网络的异尺寸图像配准方法
CN113344997B (zh) * 2021-06-11 2022-07-26 方天圣华(北京)数字科技有限公司 快速获取只含有目标对象的高清前景图的方法及系统
CN113516698B (zh) * 2021-07-23 2023-11-17 香港中文大学(深圳) 一种室内空间深度估计方法、装置、设备及存储介质
CN113689548B (zh) * 2021-08-02 2023-06-23 华东师范大学 一种基于互注意力Transformer的医学影像三维重建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法
CN111179330A (zh) * 2019-12-27 2020-05-19 福建(泉州)哈工大工程技术研究院 一种基于卷积神经网络的双目视觉场景深度估计方法
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法
CN111179330A (zh) * 2019-12-27 2020-05-19 福建(泉州)哈工大工程技术研究院 一种基于卷积神经网络的双目视觉场景深度估计方法
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Self-Supervised Multiscase Adversarial Regression Network for Stereo Disparity Estimation;Chen Wang 等;《IEEE TRANSACTIONS ON CYBERNETICS》;20200710;第4770-4783页 *
基于多层特征融合的单目深度估计模型;叶绿等;《浙江科技学院学报》;20200831;第32卷(第04期);第257-263页 *
基于深度学习的单目图像深度估计的研究进展;李阳 等;《激光与光电子学进展》;20191031;第56卷(第19期);第1-17页 *

Also Published As

Publication number Publication date
CN112767467A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
CN111325797B (zh) 一种基于自监督学习的位姿估计方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN109461180B (zh) 一种基于深度学习的三维场景重建方法
CN113160375B (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN111325794A (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN110533724B (zh) 基于深度学习和注意力机制的单目视觉里程计的计算方法
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
Panek et al. Meshloc: Mesh-based visual localization
CN110223382B (zh) 基于深度学习的单帧图像自由视点三维模型重建方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN113313828B (zh) 基于单图片本征图像分解的三维重建方法与系统
WO2021164887A1 (en) 6d pose and shape estimation method
CN113762358A (zh) 一种基于相对深度训练的半监督学习三维重建方法
CN113962858A (zh) 一种多视角深度获取方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN116958437A (zh) 融合注意力机制的多视图重建方法及系统
CN112509106A (zh) 文档图片展平方法、装置以及设备
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN117315169A (zh) 基于深度学习多视密集匹配的实景三维模型重建方法和系统
CN115546442A (zh) 基于感知一致损失的多视图立体匹配重建方法及系统
CN115578460A (zh) 基于多模态特征提取与稠密预测的机器人抓取方法与系统
CN115375838A (zh) 一种基于无人机的双目灰度图像的三维重建方法
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant