CN117237431A - 深度估计模型的训练方法、装置、电子设备及存储介质 - Google Patents
深度估计模型的训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117237431A CN117237431A CN202210624025.3A CN202210624025A CN117237431A CN 117237431 A CN117237431 A CN 117237431A CN 202210624025 A CN202210624025 A CN 202210624025A CN 117237431 A CN117237431 A CN 117237431A
- Authority
- CN
- China
- Prior art keywords
- image
- estimation model
- depth
- depth estimation
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 230000005484 gravity Effects 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 8
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000020061 kirsch Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请实施例提供一种深度估计模型的训练方法、装置、电子设备及存储介质,该方法包括获取第一图像和第二图像;将第一图像输入至深度估计模型,以基于深度估计模型的参数输出第一深度图像;将第一图像和第二图像输入至位姿估计模型,以提取第一图像和第二图像之间的位姿转换关系;根据第一深度图像、位姿转换关系和预先获取的相机参数,生成重建图像;计算重建图像和第一图像的相似度,得到二维损失图提取出第一图像中弱纹理区域;根据二维损失图确定弱纹理区域像素点的第一相似度值;降低第一相似度值的比重,得到损失值;基于损失值,调节深度估计模型的参数。可以降低弱纹理区域对深度估计的影响。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种深度估计模型的训练方法、装置、电子设备及存储介质。
背景技术
目前单目深度估计的深度学习方法中,有一种是利用SFM(Structure FromMotion)原理,通过给予模型不同时间、视角的图像(如目标帧和参考帧),让模型推论目标帧的深度值并利用参考帧重建目标帧的图像,得到重建帧,误差较低的深度估计所重建出来的重建帧会较接近目标帧。
但重建帧相似度在以下情境中无法精准表达深度的误差程度:弱纹理(lowtexture)图像即使深度误差很大也能够重建的很接近目标帧,让网络学到错误的目标深度估计。
发明内容
鉴于以上内容,有必要提出一种深度估计模型的训练方法、装置、电子设备及存储介质,可以降低弱纹理图像对深度估计的影响。
深度估计模型的训练方法包括获取第一图像和第二图像;将所述第一图像输入至深度估计模型,以基于所述深度估计模型的参数输出第一深度图像;将所述第一图像和所述第二图像输入至位姿估计模型,以提取所述第一图像和所述第二图像之间的位姿转换关系,其中,所述第一图像与所述第二图像分别为不同视角的图像;根据所述第一深度图像、所述位姿转换关系和预先获取的相机参数,生成重建图像;计算重建图像和第一图像的相似度,得到二维损失图提取出所述第一图像中弱纹理区域;根据所述二维损失图确定所述弱纹理区域像素点的第一相似度值;降低所述第一相似度值的比重,得到损失值;基于所述损失值,调节所述深度估计模型的所述参数。
相较于现有技术,本发明提供的深度估计模型的训练方法、装置、电子设备及存储介质,前基于弱纹理区域提供的损失值普遍偏低,不论模型是否有学到正确的深度推论,该区域的损失值都不会有太大的差异,因此若弱纹理区域的比重偏高,甚至会拖累整体训练,故此处降低弱纹理区域的比重,即降低弱纹理区域的损失值贡献比重,实现降低弱纹理区域对模型训练的不良影响。
附图说明
图1为本申请实施例提供的深度估计模型的训练方法流程示意图。
图2为本申请实施例提供的合成重建图像的原理示意图。
图3为本申请实施例提供的另一种深度图像模型训练方法流程示意图。
图4为本申请实施例提供的一种训练装置结构示意图。
图5为申请实施例提供的电子设备的结构示意图。
主要元件符号说明
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对本申请实施例进行详细的解释说明之前,先对本申请实施例涉及的应用场景予以介绍。
图像的深度信息作为支持计算机视觉技术的重要信息,对三维重建有着重要的意义。它可以应用在自主驾驶、场景理解、机器人学、3D重建、摄影摄像、智能医学、智能人机交互、空间测绘、增强现实等领域。举例而言,在自主驾驶中,图像的深度信息可以用来辅助传感器融合、可行驶的空间探测和导航。
下面参考附图描述本申请实施例的一种深度估计模型的训练方法、装置及电子设备。
图1为本申请实施例提供的深度估计模型的训练方法流程示意图。其中,需要说明的是,本实施例的深度估计模型的训练方法的执行主体可以为训练装置,该训练装置具体可以为硬件设备,或者硬件设备中的软件等。其中,硬件设备例如终端设备、服务器等。如图1所示,本实施例提出的深度估计模型的训练方法,包括如下步骤:
步骤S10:获取第一图像和第二图像。
在本申请实施例中,训练深度估计模型需要获取训练图像数据,训练图像数据包括第一图像和第二图像,其中第一图像和第二图像均为拍摄同一目标对象的图像,且第一图像和第二图像分别为不同视角下拍摄的图像。例如,第一图像即为正视角图像,第二图像即为非正视角图像。其中目标对象例如人、动物、车辆、建筑物等。
在本申请实施例中,第一图像和第二图像可以由单目摄像机拍摄,也可以由双目立体摄像机拍摄。在一些实施例中,第一图像和第二图像可以为单目摄像机或双目立体摄像机所拍摄的视频中截取出的视频帧。在一些实施例中,训练装置可以将训练图像数据存储在各种数据存储库中,例如,将单眼图像存储在单眼图像存储库中、以及将立体图像对存储在立体图像数据存储库中。
步骤S11:将第一图像输入至深度估计模型,以基于深度估计模型的参数输出第一深度图像。
在本申请实施例中,将第一图像输入至深度估计模型中,该深度估计模型输出与第一图像对应的第一深度图像。第一深度图像中每个像素点的像素值(或灰度值)可以代表相对深度也可以代表深度值。相对深度可以理解为各个像素点的前后逻辑关系。其中,像素点对应的现实物体与摄像设备或参考平面之间的距离称为该像素点的深度值,也即像素点的深度值计即该点对应的现实物体到上述摄像设备的垂直距离。
其中,深度估计模型可以为自编码器(autoencoder,AE)网络。
自编码器是一类在半监督学习和非监督学习中使用的人工神经网络(ArtificialNeuralNetworks,ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习(representationlearning)。自编码器包含编码器(encoder)和解码器(decoder)两部分。按学习范式,自编码器可以被分为收缩自编码器(contractiveautoencoder)、正则自编码器(regularizedautoencoder)和变分自编码器(VariationalAutoEncoder,VAE),其中前两者是判别模型、后者是生成模型。按构筑类型,自编码器可以是前馈结构或递归结构的神经网络。
在一些实施例中,深度估计模型包括深度编码器和深度解码器,深度估计模型将第一图像馈送通过深度编码器,以提取抽象深度特征。深度编码器可以使用不同的机器学习算法和技术来提取这些特征。
示例地,深度编码器是包括多个层的卷积神经网络,其中每个后续层减小所提取的特征的维数。例如,在第一层之后,将数量级为10^6个像素或数据点的输入图像缩小为数量级为10^5的一组特征。通过深度编码器中的最后一层,抽象深度特征可以在10^4或更小的数量级。这些数字纯粹是出于说明目的。实际上,深度编码器可以具有不同数目的层,并且像素和深度特征的数目可以变化。
以相反的方式,深度解码器包括多个层以增加抽象特征的维数。
如上述示例,深度解码器可以采用数量级为10^4的抽象深度特征,并且在多个层上逐步导出输入图像的每个像素处的深度(相对深度or深度值)。然后,深度解码器输出第一深度图像,其中深度图上的每个像素对应于场景中的被投影到该像素的最近对象的距离。
在一些实施例中,深度解码器输出视差图,其中视差图上的每个像素对应于距离的倒数。在本申请实施例中,参考深度图描述的原理容易地应用于具有视差图的实现中。例如,第一图像已经在给定像素处捕获了距相机某个未知距离的树。深度解码器输出与从相机到该像素处的街区的距离相对应的深度值。
在一些实施例中,输出深度值可以相对于另一深度值。在其他实施例中,输出深度值按比例缩放,以提供对场景中的对象的真实测量,例如,一个街区在10m之外,或建筑物在25米之外。
步骤S12:将第一图像和第二图像输入至位姿估计模型,以提取第一图像和第二图像之间的位姿转换关系,其中,第一图像与第二图像分别为不同视角的图像。
在本申请实施例中,位姿估计模型接收多个级联图像(如第一图像和第二图像)以确定每个输入的图像的姿态。姿态通常是指两个图像的透视图之间的数学变换。在一些实施例中,姿态更一般地描述了图像的透视图,其中该透视图可以用于定义两个图像之间的变换。
在本申请实施例中,位姿估计模型可以包括姿态编码器和姿态编码器。将第一图像和第二图像放入姿态编码器中,该姿态编码器从第一图像和第二图像中提取抽象姿态特征。然后抽象姿态特征被输入通过姿态解码器,该姿态解码器确定第一图像和第二图像之间的位姿转换关系。姿态编码器可以被配置为包括多个层的卷积神经网络,以用于提取抽象姿态特征并且然后推导第一图像和第二图像的姿态。
步骤S13:根据第一深度图像、位姿转换关系和预先获取的相机参数,生成重建图像。
在本申请实施例中,在获取第一深度图像后,可基于第一深度图像中各像素点的深度值、第一图像和第二图像之间的位姿转换关系以及相机参数生成重建图像。
具体地,将第一深度图像中各像素点的深度值、相机参数、位姿转换关系以及各像素点在第一图像中的位置坐标作为位置转换算法的输入,获取输出的各像素点在重建图像中对应的位置坐标;确定第一深度图像中各像素点的像素值,并基于像素值和位置坐标生成重建图像。
具体的,位置转换算法的公式如式(1)所示,将第一深度图像中各像素点的深度值、相机参数、位姿转换关系以及第一图像中各像素点的位置坐标输入式(1),即可获得第一图像中各像素点在重建图像中所对应的位置。
B2=KTD1K-1B1 式(1)
其中,B1为第一图像中各像素点的位置,用(x1,y1)表示,B2为第一图像中各像素点在重建图像中所对应的位置,用(x2,y2)表示,K为由相机参数组成的矩阵,T为位姿转换关系,K的列数与T的行数相等。
示例性地,请一并参阅图2,图2为本申请实施例提供的合成重建图像的原理示意图。
如图2所示,以目标视角O1下拍摄目标点P得到第一图像100,目标点P在第一图像100中的P1。以参考视角O2拍摄目标点P得到第二图像200,目标点P在第二图像200中的P2。重建过程概述:以参考视角O2下的像素点重新映像至目标视角O1下的像素点位置,进而重建出一张目标视角O1下的重建图像。映像原理:目标视角O1下像素P1与正确的深度值对应3D坐标下的目标点P,在参考视角O2下可找到唯一P2。映设计算:已知任意P1求P2,首先通过P1的推论深度(即深度值)与相向机内参K可得知目标点P在目标视角O1坐标系下的位置,即第一图像中的P1。通过位姿转换关系得到目标点P在参考视角O2坐标系下的位置,即第二图像中的P2。已知目标点P在参考视角O2坐标系下的位置与相机内参K,可计算出对应的映射像素点。对第一图像上的所有像素P1计算得到对应P2之后,以P2颜色取代P1颜色,就得到重建图像。
步骤S14:计算重建图像和第一图像的相似度,得到二维损失图。
在本申请实施例中,重建图像与第一图像为大小相同的二维图像,计算重建图像和第一图像之间的相似度,即估算第一图像与重建图像一致的程度,得到相似度值。可以使用相关相似度计算函数计算相似度值。
在一些实施例中,相似度计算函数可以实现为计算重建图像与第一图像对应同一目标点的两个像素点间颜色之间的差异。例如,上述示例,第一图像和重建图像均为RGB图像,目标点P在重建图像中对应像素点P3,像素点P3的颜色向量为(r3、g3、b3)。目标点P在第一图像中对应像素点P1像素点P3的颜色向量为(r1、g1、b1)。则计算像素点P3和像素点P1颜色向量之间的差异,例如,该两个像素点之间的相似度=|r1-r3|+|g1-g3|+|b1-b3|。又例如,该个
在另一些实施例中,相似度计算函数可以实现为计算重建图像与第一图像结构相似性(StructuralSIMilarity,SSIM)。例如,计算重建图像与第一图像同位置下的视窗(window)间的SSIM差异。视窗(window)=指定一中心像素位置,其周围N*N范围内的像素集合。
在本申请实施例中,根据计算出的相似度值得到二维损失图,二维损失图即为一张单通道的二维图,二维损失图上像素值即为前述同位置的两像素(或两视窗)之间的相似度值。
在本申请实施例中,重建图像是根据第一深度图像以及位姿转换关系计算像素点映像关系,以第二图像中颜色贴回目标视角下得到的重建图像。在理想情况下(深度&位姿误差极小)重建图像与第一图像几乎一模一样。然而,若是深度估计模型推导出的深度误差较大,也能够重建的很接近第一图像,但是会深度估计模型学习到错误的目标深度估计。
示例性地,如图2所示,若深度估计模型对像素点P1的推论深度误差较大,会计算得P',依前述映射过程由P'计算得P3,进而得到有误差的重建图像。实际上应该得到的像素点P2与误差较大下推导出的像素点P3,在像素点P2和像素点P3纹理相近的情况下,无法反映出P与P'的位置误差。也就存在弱纹理的图像,即使深度误差很大也能够重建的很接近原图,让网络学到错误的目标深度估计。
由此,本申请实施例通过降低弱纹理区域的损失值权重,提高非弱纹理区域也即较明显区域的损失值权重,降低弱纹理区域在训练深度估计模型阶段中的权重,降低弱纹理在训练阶段误导深度估计模型修正的幅度,减少弱纹理区域对深度估计模型学习的误差影响。
步骤S15:提取出第一图像中弱纹理区域。
在本申请实施例中,可以获取第一图像的颜色和亮度信息,根据颜色与亮度信息,将第一图像分割为若干区域。然后计算获得第一图像对应的梯度信息,根据梯度信息从若干区域中选取出弱纹理区域,弱纹理区域为梯度统计平均值在预设范围内的区域。
具体地,可以应用基于区域的分割方法如区域生长方法来对图像进行分割。区域生长的基本思想是将具有相似性质的像素集合起来构成区域。具体先对每个需要分割的区域找一个种子像素点作为生长的起点,然后将种子像素点周围中与种子像素点有相同或相似性质的像素(本实施例中是颜色和亮度信息相似的像素)合并到种子像素点所在的区域中。将这些新像素当作新的种子像素点继续进行上面的过程,直到再没有满足条件的像素可被包括进来,则可以划分出若干区域。然后基于图像的颜色和亮度信息来进行图像分割的,分割成的区域内部的像素点在颜色和亮度上特征都比较相近。可以将图像看成二维离散函数I(i,j),(i,j)为图像中像素点的坐标,I(i,j)为像素点(i,j)的像素值(如:RGB值),图像的梯度信息其实就是这个二维离散函数的求导,其中可以使用梯度公式求导,梯度公式。比如:Sobel、Roberts、kirsch、laplace、piewitt、robinson算子等。图像的梯度大小可以反映出图像的像素的亮度以及颜色的频率变化大小,对于弱纹理区域,其内部像素点的亮度颜色比较相近,变化较小,相应的梯度值也比较小,按照该原理,对于分割成的若干区域,其中梯度统计平均值较小的区域即为弱纹理区域。
在一些实施例中,与弱纹理区域相对的是非弱纹理区域,也可以找到颜色梯度变化较大的位置,也就是视觉特征比较明显的区域(非弱纹理区域),例如物体边缘。第一图像中除去非弱纹理区域就是弱纹理区域。
步骤S16:根据二维损失图确定弱纹理区域像素点的第一相似度值。
在本申请实施例中,二维损失图的大小跟第一图像一致,二维损失图和第一图像的像素之间自然存在一对一关系,在第一图像上找到的弱纹理区域可对应到二维损失图。如,在第一图像上找到的弱纹理区域的N个像素点,该N个像素点可以对应到二维损失图上的N个第一相似度值。
步骤S17:降低第一相似度值的比重,得到损失值。
在本申请实施例中,对二维损失图中的各个像素点进行处理得到损失值。如对二维损失图中的各个像素点加权求和得到损失值。损失值还可以指示深度估计模型是否被充分训练、和/或在估计深度信息时是否足够精确。
在本申请实施例中,在找出弱纹理区域像素点的第一相似度值后,可以设定超参数指定第一相似度值缩小比例,如设置缩小比例为S,则将二维损失图中第一相似度值乘上缩小比例S,则二维损失图中对应弱纹理区域的N个像素点的像素值均乘上缩小比例S,之后对二维损失图中的各个像素点进行处理得到损失值。其中,缩小比例可以根据实际试验数据进行设定。
在本申请实施例中,如前述弱纹理区域提供的损失值普遍偏低,不论模型是否有学到正确的深度推论,该区域的损失值都不会有太大的差异,因此若弱纹理区域的比重偏高,甚至会拖累整体训练,故此处降低弱纹理区域的比重,即降低弱纹理区域的损失值贡献比重,实现降低弱纹理区域对模型训练的不良影响。
步骤S18:基于损失值,调节深度估计模型的参数。
在本申请实施例中,基于步骤S17得到损失值调节深度估计模型的参数,以使得在调节深度估计模型的参数过程中,该损失值被最小化。
在一些实施例中,请参阅图3,上述深度估计模型的训练方法,还包括如下步骤:
步骤S31,提取出第一图像中非弱纹理区域。
在本申请实施例中,第一图像包括弱纹理区域与非弱纹理区域。具体可以参考步骤S15,可以获取第一图像的颜色和亮度信息,根据颜色与亮度信息,将第一图像分割为若干区域。然后计算获得第一图像对应的梯度信息,根据梯度信息从若干区域中选取出非弱纹理区域,弱纹理区域为梯度统计平均值在预设范围外的区域。步骤S31和步骤S15的区别在于,步骤S31找出梯度统计平均值较大的区域,即为非弱纹理区域。
在一些实施例中,可以直接找到颜色梯度变化较小的位置,也就是视觉特征不明显的区域(弱纹理区域)。第一图像中除去非弱纹理区域就是弱纹理区域。
在一些实施例中,步骤S31可以结合步骤S15一起执行,在步骤S15提取出第一图像中弱纹理区域后。
步骤S32:根据二维损失图确定非弱纹理区域像素点的第二相似度值。
在本申请实施例中,二维损失图的大小跟第一图像一致,二维损失图和第一图像的像素之间自然存在一对一关系,在第一图像上找到的非弱纹理区域可对应到二维损失图。如,在第一图像上找到的非弱纹理区域的M个像素点,该M个像素点可以对应到二维损失图上的M个第二相似度值。
步骤S33:增加第二相似度值比重,得到损失值。
在本申请实施例中,在找出非弱纹理区域像素点的第二相似度值后,可以设定超参数指定第二相似度值放大比例,如设置放大比例为Q,则将二维损失图中第二相似度值乘上放大比例Q,则二维损失图中对应非弱纹理区域的M个像素点的像素值均乘上放大比例Q,之后对二维损失图中的各个像素点进行处理得到损失值。其中,放大比例可以根据实际试验数据进行设定。
步骤S34:基于损失值,调节深度估计模型的参数。
在本申请实施例中,基于步骤S33得到损失值调节深度估计模型的参数,以使得在调节深度估计模型的参数过程中,该损失值被最小化。
在一些实施例中,可以同时降低第一相似度值的比重以及增加第二相似度值比重,进而得到损失值,根据该损失值调节深度估计模型的参数。
在本申请实施例中,如前述弱纹理区域提供的损失值普遍偏低,不论模型是否有学到正确的深度推论,该区域的损失值都不会有太大的差异,若弱纹理区域的比重偏高,甚至会拖累整体训练。故此处利用找非弱纹理区域像素点的方式,找到找非弱纹理区域,并增加非弱纹理区域的损失值贡献比重,如此可以降低弱纹理区域对模型训练的不良影响。
请参阅图4,图4为本申请实施例提供的一种训练装置结构示意图。
在本申请实施例中,训练装置41包括获取模块410、第一输入模块411、第二输入模块412、生成模块413、计算模块414、提取模块415、确定模块416、降低模块417和调节模块418。
获取模块410,用于获取第一图像和第二图像;
第一输入模块411,用于将第一图像输入至深度估计模型,以基于深度估计模型的参数输出第一深度图像;
第二输入模块412,用于将第一图像和第二图像输入至位姿估计模型,以提取第一图像和第二图像之间的位姿转换关系,其中,第一图像与第二图像分别为不同视角的图像。
生成模块413,用于根据第一深度图像、位姿转换关系和预先获取的相机参数,生成重建图像。
计算模块414,用于计算重建图像和第一图像的相似度,得到二维损失图。
提取模块415,用于提取出第一图像中弱纹理区域。
确定模块416,用于根据二维损失图确定弱纹理区域像素点的第一相似度值;
降低模块417,用于降低第一相似度值的比重,得到损失值。
调节模块418,用于基于损失值,调节深度估计模型的参数。
参阅图5所示,图5为申请实施例提供的电子设备的结构示意图。在本发明较佳实施例中,电子设备50包括存储器51以及至少一个处理器52。本领域技术人员应该了解,图5示出的计算机装置的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,电子设备50还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,电子设备50包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。
需要说明的是,电子设备50仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,存储器51用于存储程序代码和各种数据,例如安装在电子设备50中的训练装置41,并在电子设备50的运行过程中实现高速、自动地完成程序或数据的存取。存储器51包括只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableRead-OnlyMemory,PROM)、可擦除可编程只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM)、一次可编程只读存储器(One-timeProgrammableRead-OnlyMemory,OTPROM)、电子擦除式可复写只读存储器(Electrically-ErasableProgrammableRead-OnlyMemory,EEPROM)、只读光盘(CompactDiscRead-OnlyMemory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。
在一些实施例中,至少一个处理器52可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。至少一个处理器52是电子设备50的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备50的各个部件,通过运行或执行存储在存储器51内的程序或者模块,以及调用存储在存储器51内的数据,以执行电子设备50的各种功能和处理数据,例如执行深度估计模型的训练的功能。
应该了解,实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本发明各个实施例方法的部分。
在进一步的实施例中,结合图1,至少一个处理器52可执行电子设备50的操作装置以及安装的各类应用程序、程序代码等,例如,上述的各个模块。
存储器51中存储有程序代码,且至少一个处理器52可调用存储器51中存储的程序代码以执行相关的功能。例如,图4中的各个模块是存储在存储器51中的程序代码,并由至少一个处理器52所执行,从而实现各个模块的功能以达到深度估计模型的训练的目的。
在本发明的一个实施例中,存储器51存储一个或多个指令(即至少一个指令),至少一个指令被至少一个处理器52所执行以实现图1所示的深度估计模型的训练的目的。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种深度估计模型的训练方法,应用于电子设备,其特征在于,所述方法包括:
获取第一图像和第二图像;
将所述第一图像输入至深度估计模型,以基于所述深度估计模型的参数输出第一深度图像;
将所述第一图像和所述第二图像输入至位姿估计模型,以提取所述第一图像和所述第二图像之间的位姿转换关系,其中,所述第一图像与所述第二图像分别为不同视角的图像;
根据所述第一深度图像、所述位姿转换关系和预先获取的相机参数,生成重建图像;
计算重建图像和第一图像的相似度,得到二维损失图;
提取出所述第一图像中弱纹理区域;
根据所述二维损失图确定所述弱纹理区域像素点的第一相似度值;
降低所述第一相似度值的比重,得到损失值;
基于所述损失值,调节所述深度估计模型的所述参数。
2.如权利要求1所述的深度估计模型的训练方法,其特征在于,所述方法还包括:
提取出所述第一图像中非弱纹理区域;
根据所述二维损失图确定所述非弱纹理区域像素点的第二相似度值;
增加所述第二相似度值比重,得到所述损失值。
3.如权利要求1所述的深度估计模型的训练方法,其特征在于,所述降低所述第一相似度值的比重,得到损失值包括:
获取所述第一相似度值的缩小比例;
基于所述缩小比例调整述第一相似度值的比重,得到损失值。
4.如权利要求2所述的深度估计模型的训练方法,其特征在于,所述增加所述第二相似度值比重,得到所述损失值包括:
获取所述第二相似度值的放大比例;
基于所述放大比例调整述第二相似度值的比重,得到损失值。
5.如权利要求1至4任一项所述的深度估计模型的训练方法,其特征在于,所述提取出所述第一图像中弱纹理区域包括:
获取所述第一图像的颜色和亮度信息;
根据所述颜色与亮度信息,将所述第一图像划分区域;
计算获得所述第一图像对应的梯度信息;
根据所述梯度信息从所述区域中选取出弱纹理区域,其中,所述弱纹理区域为梯度统计平均值在预设范围内的区域。
6.如权利要求2或4所述的深度估计模型的训练方法,其特征在于,所述提取出所述第一图像中非弱纹理区域包括:
获取所述第一图像的颜色和亮度信息;
根据所述颜色与亮度信息,将所述第一图像划分区域;
计算获得所述第一图像对应的梯度信息;
根据所述梯度信息从所述区域中选取出非弱纹理区域,其中,所述非弱纹理区域为梯度统计平均值在预设范围外的区域。
7.如权利要求1至4任一项所述的深度估计模型的训练方法,其特征在于,所述非弱纹理区域包括物体边缘区域。
8.一种训练装置,其特征在于,包括:
获取模块,用于获取第一图像和第二图像;
第一输入模块,用于将所述第一图像输入至深度估计模型,以基于所述深度估计模型的参数输出第一深度图像;
第二输入模块,用于将所述第一图像和所述第二图像输入至位姿估计模型,以提取所述第一图像和所述第二图像之间的位姿转换关系,其中,所述第一图像与所述第二图像分别为不同视角的图像;
生成模块,用于根据所述第一深度图像、所述位姿转换关系和预先获取的相机参数,生成重建图像;
计算模块,用于计算重建图像和第一图像的相似度,得到二维损失图;
提取模块,用于提取出所述第一图像中弱纹理区域;
确定模块,用于根据所述二维损失图确定所述弱纹理区域像素点的第一相似度值;
降低模块,用于降低所述第一相似度值的比重,得到损失值;
调节模块,用于基于所述损失值,调节所述深度估计模型的所述参数。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令时实现如权利要求1至7中任意一项所述深度估计模型的训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述深度估计模型的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210624025.3A CN117237431A (zh) | 2022-06-02 | 2022-06-02 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
US18/205,424 US20230394693A1 (en) | 2022-06-02 | 2023-06-02 | Method for training depth estimation model, training apparatus, and electronic device applying the method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210624025.3A CN117237431A (zh) | 2022-06-02 | 2022-06-02 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117237431A true CN117237431A (zh) | 2023-12-15 |
Family
ID=88978096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210624025.3A Pending CN117237431A (zh) | 2022-06-02 | 2022-06-02 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230394693A1 (zh) |
CN (1) | CN117237431A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745924B (zh) * | 2024-02-19 | 2024-05-14 | 北京渲光科技有限公司 | 基于深度无偏估计的神经渲染方法、系统及设备 |
CN117928565B (zh) * | 2024-03-19 | 2024-05-31 | 中北大学 | 一种复杂遮挡环境下的偏振导航定向方法 |
-
2022
- 2022-06-02 CN CN202210624025.3A patent/CN117237431A/zh active Pending
-
2023
- 2023-06-02 US US18/205,424 patent/US20230394693A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230394693A1 (en) | 2023-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | High-precision depth estimation using uncalibrated LiDAR and stereo fusion | |
David et al. | Simultaneous pose and correspondence determination using line features | |
KR101791590B1 (ko) | 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법 | |
KR20180087994A (ko) | 스테레오 매칭 방법 및 영상 처리 장치 | |
WO2015135323A1 (zh) | 一种摄像机跟踪方法及装置 | |
CN111724439A (zh) | 一种动态场景下的视觉定位方法及装置 | |
CN117237431A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
EP3769265A1 (en) | Localisation, mapping and network training | |
CN111998862B (zh) | 一种基于bnn的稠密双目slam方法 | |
CN110610486A (zh) | 单目图像深度估计方法及装置 | |
CN110443874B (zh) | 基于卷积神经网络的视点数据生成方法和装置 | |
CN112184757A (zh) | 运动轨迹的确定方法及装置、存储介质、电子装置 | |
CN111988593A (zh) | 一种基于深度残差优化的立体图像颜色校正方法及系统 | |
EP3185212B1 (en) | Dynamic particle filter parameterization | |
CN111598927B (zh) | 一种定位重建方法和装置 | |
CN114170290A (zh) | 图像的处理方法及相关设备 | |
CN114972634A (zh) | 基于特征体素融合的多视角三维可变形人脸重建方法 | |
CN113886510A (zh) | 一种终端交互方法、装置、设备及存储介质 | |
KR20230049969A (ko) | 글로벌 측위 장치 및 방법 | |
US20230401737A1 (en) | Method for training depth estimation model, training apparatus, and electronic device applying the method | |
DE112014002943T5 (de) | Verfahren zur Registrierung von Daten unter Verwendung eines Satzes von Grundelementen | |
JP2023065296A (ja) | 平面検出装置及び方法 | |
TWI819639B (zh) | 深度估計模型之訓練方法、裝置、電子設備及存儲介質 | |
CN108305269B (zh) | 一种双目图像的图像分割方法及系统 | |
US20230281862A1 (en) | Sampling based self-supervised depth and pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |