CN112819875A - 单目深度估计的方法、装置及电子设备 - Google Patents

单目深度估计的方法、装置及电子设备 Download PDF

Info

Publication number
CN112819875A
CN112819875A CN202110151846.5A CN202110151846A CN112819875A CN 112819875 A CN112819875 A CN 112819875A CN 202110151846 A CN202110151846 A CN 202110151846A CN 112819875 A CN112819875 A CN 112819875A
Authority
CN
China
Prior art keywords
image
depth
coordinates
pixel
monocular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110151846.5A
Other languages
English (en)
Other versions
CN112819875B (zh
Inventor
董伟
韩志华
郭立群
杜一光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhitu Technology Co Ltd
Original Assignee
Suzhou Zhitu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhitu Technology Co Ltd filed Critical Suzhou Zhitu Technology Co Ltd
Priority to CN202110151846.5A priority Critical patent/CN112819875B/zh
Publication of CN112819875A publication Critical patent/CN112819875A/zh
Application granted granted Critical
Publication of CN112819875B publication Critical patent/CN112819875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种单目深度估计的方法、装置及电子设备,其中,用于深度估计的深度估计模型的训练过程为:将图像样本集中的图像样本输入生成器得到深度图像;将图像样本的相邻帧图像样本输入姿态估计模型,得到旋转平移矩阵;基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本得到重建图像;将图像样本和重建图像输入判别器中进行训练,得到判别结果;将判别结果输入生成器进行训练,直至损失函数收敛,将训练好的生成器作为深度估计模型。这种训练过程只需要图像样本,以及由相机内参、旋转平移矩阵和深度图像对图像样本进行重建得到的重建图像训练模型,因此,减少了模型对训练数据的依赖和数据采集制作成本。

Description

单目深度估计的方法、装置及电子设备
技术领域
本发明涉及深度估计技术领域,尤其是涉及一种单目深度估计的方法、装置及电子设备。
背景技术
距离信息是计算机视觉中场景三维重建等一些领域的研究基础,如果能够准确地从场景图像中推理出场景的三维结构,人类和计算机就能理解图像中物体之间的三维关系,从而更好地对场景理解,同时也将极大促进计算机视觉领域多种应用的发展,例如3D电影制作、机器人导航、无人驾驶等。
传统的场景深度估计的视觉算法首先是基于二维图像,以及二维图像对应的深度图像对神经网络模型训练得到深度估计模型,再利用该模型实现对二维图像的深度估计。由于在训练深度估计模型的过程中需要额外的设备或仪器处理二维图像得到深度图像,因此,增加了模型对训练数据的依赖和数据采集制作的成本。
发明内容
有鉴于此,本发明的目的在于提供一种单目深度估计的方法、装置及电子设备,以缓解上述技术问题。
第一方面,本发明实施例提供了一种单目深度估计的方法,其中,该方法包括:获取由单目相机拍摄到的待深度估计的单目场景图像;将单目场景图像输入深度估计模型,得到目标深度图像;其中,深度估计模型通过如下方式训练:将图像样本集中的图像样本输入生成器,得到图像样本对应的深度图像;其中,生成器为多层深度神经网络;将图像样本的相邻帧图像样本输入姿态估计模型,得到图像样本相对于相邻帧图像样本的旋转平移矩阵;其中,姿态估计模型为多层深度神经网络;基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像;将图像样本和重建图像输入判别器中进行训练,得到判别结果;其中,判别器为多层深度神经网络;将判别结果输入生成器进行训练,直至损失函数收敛,得到训练好的生成器;将训练好的生成器作为深度估计模型。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像的步骤,包括:获取图像样本中像素点的像素坐标,以及在深度图像中该像素点的深度值;其中,像素坐标为像素点在图像坐标系下的位置坐标,深度值是指像素点到单目相机的距离值;根据旋转平移矩阵、相机内参、像素坐标和深度值计算图像样本中像素点在相邻帧图像样本的投影坐标;在相邻帧图像样本上使用双线性插值,得到相邻帧图像样本上投影坐标的像素值。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,根据旋转平移矩阵、相机内参、像素坐标和深度值计算图像样本中像素点在相邻帧图像样本的投影坐标的步骤,包括:基于相机内参,像素坐标和深度值计算像素点的物理坐标;其中,物理坐标为像素点在世界坐标系下的位置坐标;根据旋转平移矩阵、相机内参和物理坐标计算像素点的投影坐标。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,通过下式计算物理坐标:W=K-1*P*D;其中,W表示物理坐标,K-1表示相机内参的逆矩阵,P表示像素坐标,D表示深度值。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,通过下式计算投影坐标:T=K*R*W;其中,T表示投影坐标,K表示相机内参,R表示旋转平移矩阵,W表示物理坐标。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,损失函数包括:生成器损失函数和重建损失函数;重建损失函数为:
Figure BDA0002931753010000031
其中,
Figure BDA0002931753010000032
表示多尺度结构相似性指数,α表示超参数,取值范围为(0,1);其中,
Figure BDA0002931753010000033
表示尺度为j的结构相似性指数;
Figure BDA0002931753010000034
其中,
Figure BDA0002931753010000035
表示图像样本集中第t个图像样本的均值,
Figure BDA0002931753010000036
表示图像样本集中第t个图像样本的方差,
Figure BDA0002931753010000037
表示第t个图像样本和第t个重建图像的协方差,c1和c2表示稳定常数,L表示像素值的动态范围,k1为常数(k1=0.01),k2为常数(k2=0.03);生成器损失函数为:
Figure BDA0002931753010000038
其中,D(x_t)表示判别器对图像样本集中第t个图像样本的判别结果,E表示期望;λ表示超参数。
第二方面,本发明实施例还提供一种单目深度估计的装置,其中,该装置包括:获取模块,用于获取由单目相机拍摄到的待深度估计的单目场景图像;输入模块,用于将单目场景图像输入深度估计模型,得到目标深度图像;其中,深度估计模型通过如下方式训练:将图像样本集中的图像样本输入生成器,得到图像样本对应的深度图像;其中,生成器为多层深度神经网络;将图像样本的相邻帧图像样本输入姿态估计模型,得到图像样本相对于相邻帧图像样本的旋转平移矩阵;其中,姿态估计模型为多层深度神经网络;基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像;将图像样本和重建图像输入判别器中进行训练,得到判别结果;其中,判别器为多层深度神经网络;将判别结果输入生成器进行训练,直至损失函数收敛,得到训练好的生成器;将训练好的生成器作为深度估计模型。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上述输入模块还用于:获取图像样本中像素点的像素坐标,以及在深度图像中该像素点的深度值;其中,像素坐标为像素点在图像坐标系下的位置坐标,深度值是指像素点到单目相机的距离值;根据旋转平移矩阵、相机内参、像素坐标和深度值计算图像样本中像素点在相邻帧图像样本的投影坐标;在相邻帧图像样本上使用双线性插值,得到相邻帧图像样本上投影坐标的像素值。
第三方面,本发明实施例还提供一种电子设备,该电子设备包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取单目场景图像;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行上述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述的方法的步骤。
本发明实施例带来了以下有益效果:
本申请实施例提供一种单目深度估计的方法、装置及电子设备,其中,用于深度估计的深度估计模型的训练过程为:将图像样本集中的图像样本输入生成器,得到图像样本对应的深度图像;将图像样本的相邻帧图像样本输入姿态估计模型,得到图像样本相对于相邻帧图像样本的旋转平移矩阵;基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像;将图像样本和重建图像输入判别器中进行训练得到判别结果;将判别结果输入生成器进行训练,直至损失函数收敛,得到训练好的生成器;将训练好的生成器作为深度估计模型。这种训练过程不依赖于其他设备对图像样本进行处理得到深度图像后与图像样本一起进行模型训练,在本申请实施例中,只需要图像样本,以及由相机内参、旋转平移矩阵和深度图像对图像样本进行重建得到的重建图像训练模型,因此,减少了模型对训练数据的依赖和数据采集制作成本。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子设备的结构示意图;
图2为本发明实施例提供的一种单目深度估计的方法的流程图;
图3为本发明实施例提供的一种深度估计模型的训练方法的流程图;
图4为本发明实施例提供的一种深度估计模型训练的结构示意图;
图5为本发明实施例提供的一种单目深度估计的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了减少模型对训练数据的依赖和数据采集制作成本,本发明实施例提供的一种单目深度估计的方法、装置及电子设备,可以缓解上述技术问题。下面通过实施例进行描述。
如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,电子设备也可以具有其他组件和结构。
处理设备102可以为服务器、智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子设备100中的其它组件的数据进行处理,还可以控制电子设备100中的其它组件以执行单目深度估计的方法的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
图像采集设备110可以获取单目场景图像,并且将采集到的单目场景图像存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的单目深度估计的方法、装置和电子设备中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子设备中的各器件集成设置时,该电子设备可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
本实施例提供了一种单目深度估计的方法,参见图2所示的一种单目深度估计的方法的流程图,该方法具体包括如下步骤:
步骤S202,获取由单目相机拍摄到的待深度估计的单目场景图像;
上述单目相机可以根据检测需要设置在车辆的挡风玻璃后面进行道路场景图像采集。
步骤S204,将单目场景图像输入深度估计模型,得到目标深度图像;
深度估计模型对输入的单目场景图像进行深度估计处理,以得到目标深度图像,其中,通过该目标深度图像可以得到目标深度图像上每个像素点距离单目相机的距离,因此,得到的目标深度图像能够被应用于场景三维重建中。
参见图3所示的深度估计模型的训练方法的流程图,上述深度估计模型通过如下方式训练:
步骤S302,将图像样本集中的图像样本输入生成器,得到图像样本对应的深度图像;其中,生成器为多层深度神经网络;
通常,生成器为多层深度神经网络,可将多层深度神经网络分为编码网络层、残差网络层和解码网络层,编码网络层的卷积网络将图像样本经过不同大小的卷积核,在图像样本上移动获取图像样本中的特征,其主要作用是提取图像样本特征,组合不同相近特征;残差网络层将输入部分直接添加到输出,以确保网络输入内容直接作用到后面的网络层,很好的解决了梯度消失的问题,加快模型的训练速度;解码网络层主要利用反卷积网络结构实现,从特征图中恢复场景的深度信息,从而得到图像样本对应的深度图像。
步骤S304,将图像样本的相邻帧图像样本输入姿态估计模型,得到图像样本相对于相邻帧图像样本的旋转平移矩阵;其中,姿态估计模型为多层深度神经网络;
通常,上述图像样本对应有唯一的图像标识,比如,图像样本集中的每个图像样本可按照拍摄时间顺序对图像样本进行一一排序后,对排序后的图像样本使用数字编号或字母编号等形式对其进行顺序编号标识,在此不对图像标识的形式进行限定。
比如,将数字0标识的图像样本输入生成器时,需要将数字-1标识的图像样本、数字0标识的图像样本以及数字1标识的图像样本输入姿态估计模型中,以得到数字-1标识的图像样本与数字0标识的图像样本之间的姿态变化对应的旋转平移向量,以及,得到数字0标识的图像样本与数字1标识的图像样本之间的姿态变化对应的旋转平移矩阵,因此,通过姿态估计模型得到旋转平移矩阵包括上述两两图像样本之间的姿态变化对应的旋转平移矩阵。
步骤S306,基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像;
在本实施例中,由于单目场景图像没有对应的真实深度图像,因此,需要对生成器得到的深度图像进行重建来约束生成器,以使得生成器能够生成接近于真实深度图像的深度图像。
步骤S308,将图像样本和重建图像输入判别器中进行训练,得到判别结果;其中,判别器为多层深度神经网络;
将重建图像以及拍摄得到的图像样本输入到判别器进行训练,利用训练好的判别器判别重建图像的真假;判别器主要为多层深度神经网络,经过神经网络提取特征后返回判别结果,判别结果的范围是0~1之间的数字,其中,1表示真,0表示假。
步骤S310,将判别结果输入生成器进行训练,直至损失函数收敛,得到训练好的生成器;将训练好的生成器作为深度估计模型。
在本实施例中,损失函数包括:生成器损失函数和重建损失函数,因此,在训练生成器直至损失函数收敛时,需要同时满足生成器损失函数和重建损失函数才停止生成器训练。
其中,重建损失函数为:
Figure BDA0002931753010000093
其中,
Figure BDA0002931753010000092
表示多尺度结构相似性指数,α表示超参数,取值范围为(0,1);
其中,
Figure BDA0002931753010000091
表示尺度为j的结构相似性指数;
Figure BDA0002931753010000101
其中,
Figure BDA0002931753010000102
表示图像样本集中第t个图像样本的均值,
Figure BDA0002931753010000103
表示图像样本集中第t个图像样本的方差,
Figure BDA0002931753010000104
表示第t个图像样本和第t个重建图像的协方差,c1和c2表示稳定常数,L表示像素值的动态范围,k1为常数(k1=0.01),k2为常数(k2=0.03);
上述生成器损失函数为:
Figure BDA0002931753010000105
其中,
Figure BDA0002931753010000106
表示判别器对图像样本集中第t个重建图像的判别结果,E表示期望;λ表示超参数。
本申请实施例提供一种单目深度估计的方法,其中,用于深度估计的深度估计模型的训练过程为:将图像样本集中的图像样本输入生成器,得到图像样本对应的深度图像;将图像样本的相邻帧图像样本输入姿态估计模型,得到图像样本相对于相邻帧图像样本的旋转平移矩阵;基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像;将图像样本和重建图像输入判别器中进行训练,得到判别结果;将判别结果输入生成器进行训练,直至损失函数收敛,得到训练好的生成器;将训练好的生成器作为深度估计模型。这种训练过程不依赖于其他设备对图像样本进行处理得到深度图像后与图像样本一起进行模型训练,在本申请实施例中,只需要图像样本,以及由相机内参、旋转平移矩阵和深度图像对图像样本进行重建得到的重建图像训练模型,因此,减少了模型对训练数据的依赖和数据采集制作成本。
为了便于理解深度估计模型的训练过程,图4示出了一种深度估计模型训练的结构示意图,如图4所示,以数字0标识的图像样本训练深度估计模型的过程为例进行说明,将数字0标识的图像样本输入生成器中得到数字0标识的图像样本对应的深度图像M,同时将数字0标识的图像样本、数字-1标识的图像样本和数字1识的图像样本输入姿态估计模型,得到数字0标识的图像样本相对于数字-1标识的图像样本和数字1识的图像样本的旋转平移矩阵,之后,基于深度图像M、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像C,将数字0标识的图像样本和重建图像C输入判别器中进行训练,并将判别结果输入至生成器中进行训练,将训练好的生成器作为深度估计模型。
通常,在将判别结果输入至生成器时,还需要将判别结果输入至姿态估计模型进行模型训练,直至模型损失函数收敛停止训练,以使得训练好的姿态估计模型输出较好的旋转平移矩阵。
作为其中的一个实施例,上述基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像的过程,可由步骤A1至步骤A3实现:
步骤A1,获取图像样本中像素点的像素坐标,以及在深度图像中该像素点的深度值;其中,像素坐标为像素点在图像坐标系下的位置坐标,深度值是指像素点到单目相机的距离值;
由于像素点A在图像样本和深度图像的坐标是一一对应的,因此,可根据像素点A在图像样本中的像素坐标在深度图像中找到与该像素坐标匹配的坐标,该匹配的坐标上的深度值即为像素点A的深度值。
步骤A2,根据旋转平移矩阵、相机内参、像素坐标和深度值计算图像样本中像素点在相邻帧图像样本的投影坐标;
在本实施例中,单目相机的相机内参是预先设置的,可根据实际需要进行设置,在此不进行限定。
步骤A2计算投影坐标的过程,可由步骤B1至步骤B2实现:
步骤B1,基于相机内参,像素坐标和深度值计算像素点的物理坐标;其中,物理坐标为像素点在世界坐标系下的位置坐标;
通常,可通过下式计算物理坐标:W=K-1*P*D;其中,W表示物理坐标,K-1表示相机内参的逆矩阵,P表示像素坐标,D表示深度值。
步骤B2,根据旋转平移矩阵、相机内参和物理坐标计算像素点的投影坐标。
在本实施例中,通过下式计算投影坐标:T=K*R*W;其中,T表示投影坐标,K表示相机内参,R表示旋转平移矩阵,W表示物理坐标。
步骤A3,在相邻帧图像样本上使用双线性插值,得到相邻帧图像样本上投影坐标的像素值。
利用双线性插值得到图像样本的像素值的方法与现有利用双线性插值得到像素值的方法相同,所以,在此不进行详细赘述。
对应于上述方法实施例,本发明实施例提供了一种单目深度估计的装置,图5示出了一种单目深度估计的装置的结构示意图,如图5所示,该装置包括:
获取模块502,用于获取由单目相机拍摄到的待深度估计的单目场景图像;
输入模块504,用于将单目场景图像输入深度估计模型,得到目标深度图像;其中,深度估计模型通过如下方式训练:将图像样本集中的图像样本输入生成器,得到图像样本对应的深度图像;其中,生成器为多层深度神经网络;将图像样本的相邻帧图像样本输入姿态估计模型,得到图像样本相对于相邻帧图像样本的旋转平移矩阵;其中,姿态估计模型为多层深度神经网络;基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像;将图像样本和重建图像输入判别器中进行训练,得到判别结果;其中,判别器为多层深度神经网络;将判别结果输入生成器进行训练,直至损失函数收敛,得到训练好的生成器;将训练好的生成器作为深度估计模型。
本申请实施例提供一种单目深度估计的装置,其中,用于深度估计的深度估计模型的训练过程为:将图像样本集中的图像样本输入生成器,得到图像样本对应的深度图像;将图像样本的相邻帧图像样本输入姿态估计模型,得到图像样本相对于相邻帧图像样本的旋转平移矩阵;基于深度图像、旋转平移矩阵和单目相机的相机内参重建图像样本,得到重建图像;将图像样本和重建图像输入判别器中进行训练,得到判别结果;将判别结果输入生成器进行训练,直至损失函数收敛,得到训练好的生成器;将训练好的生成器作为深度估计模型。这种训练过程不依赖于其他设备对图像样本进行处理得到深度图像后与图像样本一起进行模型训练,在本申请实施例中,只需要图像样本,以及由相机内参、旋转平移矩阵和深度图像对图像样本进行重建得到的重建图像训练模型,因此,减少了模型对训练数据的依赖和数据采集制作成本。
上述输入模块504,还用于获取图像样本中像素点的像素坐标,以及在深度图像中该像素点的深度值;其中,像素坐标为像素点在图像坐标系下的位置坐标,深度值是指像素点到单目相机的距离值;根据旋转平移矩阵、相机内参、像素坐标和深度值计算图像样本中像素点在相邻帧图像样本的投影坐标;在相邻帧图像样本上使用双线性插值,得到相邻帧图像样本上投影坐标的像素值。
上述输入模块504,还用于基于相机内参,像素坐标和深度值计算像素点的物理坐标;其中,物理坐标为像素点在世界坐标系下的位置坐标;根据旋转平移矩阵、相机内参和物理坐标计算像素点的投影坐标。
其中,通过下式计算物理坐标:W=K-1*P*D;其中,W表示物理坐标,K-1表示相机内参的逆矩阵,P表示像素坐标,D表示深度值。
其中,通过下式计算投影坐标:T=K*R*W;其中,T表示投影坐标,K表示相机内参,R表示旋转平移矩阵,W表示物理坐标。
上述损失函数包括:生成器损失函数和重建损失函数;重建损失函数为:
Figure BDA0002931753010000141
其中,
Figure BDA0002931753010000142
表示多尺度结构相似性指数,α表示超参数,取值范围为(0,1);其中,
Figure BDA0002931753010000143
表示尺度为j的结构相似性指数;
Figure BDA0002931753010000144
其中,
Figure BDA0002931753010000145
表示图像样本集中第t个图像样本的均值,
Figure BDA0002931753010000146
表示图像样本集中第t个图像样本的方差,
Figure BDA0002931753010000147
表示第t个图像样本和第t个重建图像的协方差,c1和c2表示稳定常数,L表示像素值的动态范围,k1为常数(k1=0.01),k2为常数(k2=0.03);生成器损失函数为:
Figure BDA0002931753010000148
其中,
Figure BDA0002931753010000149
表示判别器对图像样本集中第t个重建图像的判别结果,E表示期望;λ表示超参数。
本发明实施例提供的单目深度估计的装置,与上述实施例提供的单目深度估计的方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行上述单目深度估计的方法的步骤。
本发明实施例所提供的单目深度估计的方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种单目深度估计的方法,其特征在于,所述方法包括:
获取由单目相机拍摄到的待深度估计的单目场景图像;
将所述单目场景图像输入深度估计模型,得到目标深度图像;其中,所述深度估计模型通过如下方式训练:
将图像样本集中的图像样本输入生成器,得到所述图像样本对应的深度图像;其中,所述生成器为多层深度神经网络;
将所述图像样本的相邻帧图像样本输入姿态估计模型,得到所述图像样本相对于相邻帧图像样本的旋转平移矩阵;其中,所述姿态估计模型为多层深度神经网络;
基于所述深度图像、旋转平移矩阵和所述单目相机的相机内参重建所述图像样本,得到重建图像;
将所述图像样本和所述重建图像输入判别器中进行训练,得到判别结果;其中,所述判别器为多层深度神经网络;
将所述判别结果输入所述生成器进行训练,直至损失函数收敛,得到训练好的生成器;
将训练好的生成器作为所述深度估计模型。
2.根据权利要求1所述的方法,其特征在于,基于所述深度图像、旋转平移矩阵和所述单目相机的相机内参重建所述图像样本,得到重建图像的步骤,包括:
获取所述图像样本中像素点的像素坐标,以及在所述深度图像中该像素点的深度值;其中,所述像素坐标为像素点在图像坐标系下的位置坐标,所述深度值是指像素点到所述单目相机的距离值;
根据旋转平移矩阵、相机内参、像素坐标和深度值计算所述图像样本中像素点在相邻帧图像样本的投影坐标;
在所述相邻帧图像样本上使用双线性插值,得到相邻帧图像样本上投影坐标的像素值。
3.根据权利要求2所述的方法,其特征在于,根据旋转平移矩阵、相机内参、像素坐标和深度值计算所述图像样本中像素点在相邻帧图像样本的投影坐标的步骤,包括:
基于所述相机内参,所述像素坐标和所述深度值计算所述像素点的物理坐标;其中,所述物理坐标为像素点在世界坐标系下的位置坐标;
根据所述旋转平移矩阵、所述相机内参和所述物理坐标计算所述像素点的投影坐标。
4.根据权利要求3所述的方法,其特征在于,通过下式计算所述物理坐标:
W=K-1*P*D;
其中,W表示所述物理坐标,K-1表示所述相机内参的逆矩阵,P表示所述像素坐标,D表示所述深度值。
5.根据权利要求3所述的方法,其特征在于,通过下式计算所述投影坐标:
T=K*R*W;
其中,T表示所述投影坐标,K表示所述相机内参,R表示所述旋转平移矩阵,W表示所述物理坐标。
6.根据权利要求1所述的方法,其特征在于,所述损失函数包括:生成器损失函数和重建损失函数;
所述重建损失函数为:
Figure FDA0002931747000000021
其中,
Figure FDA0002931747000000022
表示多尺度结构相似性指数,α表示超参数,取值范围为(0,1);
其中,
Figure FDA0002931747000000031
Figure FDA0002931747000000032
表示尺度为j的结构相似性指数;
Figure FDA0002931747000000033
其中,
Figure FDA0002931747000000034
表示所述图像样本集中第t个图像样本的均值,
Figure FDA0002931747000000035
表示所述图像样本集中第t个图像样本的的方差,
Figure FDA0002931747000000036
表示第t个图像样本和第t个重建图像的协方差,c1和c2表示稳定常数,L表示像素值的动态范围,k1为常数(k1=0.01),k2为常数(k2=0.03);
所述生成器损失函数为:
Figure FDA0002931747000000037
其中,
Figure FDA0002931747000000038
表示所述判别器对所述图像样本集中第t个重建图像的判别结果,E表示期望;λ表示超参数。
7.一种单目深度估计的装置,其特征在于,所述装置包括:
获取模块,用于获取由单目相机拍摄到的待深度估计的单目场景图像;
输入模块,用于将所述单目场景图像输入深度估计模型,得到目标深度图像;其中,所述深度估计模型通过如下方式训练:
将图像样本集中的图像样本输入生成器,得到所述图像样本对应的深度图像;其中,所述生成器为多层深度神经网络;
将所述图像样本的相邻帧图像样本输入姿态估计模型,得到所述图像样本相对于相邻帧图像样本的旋转平移矩阵;其中,所述姿态估计模型为多层深度神经网络;
基于所述深度图像、旋转平移矩阵和所述单目相机的相机内参重建所述图像样本,得到重建图像;
将所述图像样本和所述重建图像输入判别器中进行训练,得到判别结果;其中,所述判别器为多层深度神经网络;
将所述判别结果输入所述生成器进行训练,直至损失函数收敛,得到训练好的生成器;
将训练好的生成器作为所述深度估计模型。
8.根据权利要求1所述的装置,其特征在于,所述输入模块还用于:
获取所述图像样本中像素点的像素坐标,以及在所述深度图像中该像素点的深度值;其中,所述像素坐标为像素点在图像坐标系下的位置坐标,所述深度值是指像素点到所述单目相机的距离值;
根据旋转平移矩阵、相机内参、像素坐标和深度值计算所述图像样本中像素点在相邻帧图像样本的投影坐标;
在所述相邻帧图像样本上使用双线性插值,得到相邻帧图像样本上投影坐标的像素值。
9.一种电子设备,其特征在于,所述电子设备包括:图像采集设备、处理设备和存储装置;
所述图像采集设备,用于获取单目场景图像;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述权利要求1-6任一项所述的方法的步骤。
CN202110151846.5A 2021-02-03 2021-02-03 单目深度估计的方法、装置及电子设备 Active CN112819875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110151846.5A CN112819875B (zh) 2021-02-03 2021-02-03 单目深度估计的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110151846.5A CN112819875B (zh) 2021-02-03 2021-02-03 单目深度估计的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112819875A true CN112819875A (zh) 2021-05-18
CN112819875B CN112819875B (zh) 2023-12-19

Family

ID=75861160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110151846.5A Active CN112819875B (zh) 2021-02-03 2021-02-03 单目深度估计的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112819875B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113592940A (zh) * 2021-07-28 2021-11-02 北京地平线信息技术有限公司 基于图像确定目标物位置的方法及装置
CN114612510A (zh) * 2022-03-01 2022-06-10 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
WO2022206020A1 (zh) * 2021-03-31 2022-10-06 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN117115225A (zh) * 2023-09-01 2023-11-24 安徽羽亿信息科技有限公司 一种自然资源智慧综合信息化管理平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019106123A1 (de) * 2018-03-12 2019-09-12 Nvidia Corporation Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera
CN110335299A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于对抗网络的单目深度估计系统实现方法
WO2019223382A1 (zh) * 2018-05-22 2019-11-28 深圳市商汤科技有限公司 单目深度估计方法及其装置、设备和存储介质
CN112241976A (zh) * 2019-07-19 2021-01-19 杭州海康威视数字技术股份有限公司 一种训练模型的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019106123A1 (de) * 2018-03-12 2019-09-12 Nvidia Corporation Dreidimensionale (3D) Posenschätzung von Seiten einer monokularen Kamera
WO2019223382A1 (zh) * 2018-05-22 2019-11-28 深圳市商汤科技有限公司 单目深度估计方法及其装置、设备和存储介质
CN110335299A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于对抗网络的单目深度估计系统实现方法
CN112241976A (zh) * 2019-07-19 2021-01-19 杭州海康威视数字技术股份有限公司 一种训练模型的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岑仕杰;何元烈;陈小聪;: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报, no. 04 *
苗壮;张?;李伟华;: "基于双重对抗自编码网络的红外目标建模方法", 光学学报, no. 11 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022206020A1 (zh) * 2021-03-31 2022-10-06 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113592940A (zh) * 2021-07-28 2021-11-02 北京地平线信息技术有限公司 基于图像确定目标物位置的方法及装置
CN114612510A (zh) * 2022-03-01 2022-06-10 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
CN114612510B (zh) * 2022-03-01 2024-03-29 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序产品
CN117115225A (zh) * 2023-09-01 2023-11-24 安徽羽亿信息科技有限公司 一种自然资源智慧综合信息化管理平台
CN117115225B (zh) * 2023-09-01 2024-04-30 安徽羽亿信息科技有限公司 一种自然资源智慧综合信息化管理平台

Also Published As

Publication number Publication date
CN112819875B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN112819875A (zh) 单目深度估计的方法、装置及电子设备
CN110135455B (zh) 影像匹配方法、装置及计算机可读存储介质
JP7373554B2 (ja) クロスドメイン画像変換
CN112102411B (zh) 一种基于语义误差图像的视觉定位方法及装置
US11232286B2 (en) Method and apparatus for generating face rotation image
Hussein et al. Human action recognition using a temporal hierarchy of covariance descriptors on 3d joint locations
CN109544615B (zh) 基于图像的重定位方法、装置、终端及存储介质
CN107563308B (zh) 基于粒子群优化算法的slam闭环检测方法
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN110766025B (zh) 绘本识别方法、装置、系统及存储介质
CN112509047A (zh) 基于图像的位姿确定方法、装置、存储介质及电子设备
CN113569598A (zh) 图像处理方法和图像处理装置
CN111259919B (zh) 一种视频分类方法、装置及设备、存储介质
CN110738103A (zh) 活体检测方法、装置、计算机设备和存储介质
CN114757301A (zh) 车载视觉感知方法和装置、可读存储介质、电子设备
CN111582220A (zh) 一种基于移位图卷积神经网络骨骼点行为识别系统及其识别方法
CN113592940A (zh) 基于图像确定目标物位置的方法及装置
CN114170325A (zh) 确定单应性矩阵的方法、装置、介质、设备和程序产品
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
Al-Faris et al. Multi-view region-adaptive multi-temporal DMM and RGB action recognition
CN113592706B (zh) 调整单应性矩阵参数的方法和装置
CN113095228B (zh) 图像中的目标检测方法、装置及计算机可读存储介质
CN114202457A (zh) 低分辨率图像的处理方法、电子设备及计算机程序产品
CN113592015A (zh) 定位以及训练特征匹配网络的方法和装置
CN110956131B (zh) 单目标追踪方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant