CN116630779A - 深度估计模型训练、深度估计方法、装置及存储介质 - Google Patents

深度估计模型训练、深度估计方法、装置及存储介质 Download PDF

Info

Publication number
CN116630779A
CN116630779A CN202310641890.3A CN202310641890A CN116630779A CN 116630779 A CN116630779 A CN 116630779A CN 202310641890 A CN202310641890 A CN 202310641890A CN 116630779 A CN116630779 A CN 116630779A
Authority
CN
China
Prior art keywords
image
depth estimation
acquired
depth
estimation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310641890.3A
Other languages
English (en)
Inventor
赵金奎
赵明喜
冯镝
钱哲弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinniu Microelectronics Wuxi Co ltd
Original Assignee
Yinniu Microelectronics Wuxi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinniu Microelectronics Wuxi Co ltd filed Critical Yinniu Microelectronics Wuxi Co ltd
Priority to CN202310641890.3A priority Critical patent/CN116630779A/zh
Publication of CN116630779A publication Critical patent/CN116630779A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例中提供深度估计模型训练、深度估计方法、装置及存储介质,通过获取使用双目红外摄像头采集的第一目图像和第二目图像,将采集的第一目图像输入深度学习网络,输出深度图,利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像,将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,根据训练好的深度学习网络确定深度估计模型。本实施例采用无监督方案训练深度估计模型,训练好的深度估计模型可用于对单目红外摄像头拍摄的单目图像进行深度估计。其中,无监督方案可解决训练数据不足的问题,因此本方案能够提升深度估计精确度,提升深度图精准度。

Description

深度估计模型训练、深度估计方法、装置及存储介质
技术领域
本公开涉及图像处理技术领域,尤其涉及深度估计模型训练、深度估计方法、装置及存储介质。
背景技术
在3D计算机图形和计算机视觉中,深度图是一种图像或图像通道,其中包含与场景对象的表面到视点的距离有关的信息,用于模拟的3D形状或重建他们。
如何提升深度图的精准度,是业界普遍考虑的课题。
发明内容
鉴于以上相关技术的缺点,本公开的目的在于提供深度估计模型训练、深度估计方法、装置及存储介质,以解决相关技术中深度图精准度差的技术问题。
本公开第一方面提供一种深度估计模型训练方法,其包括:
获取使用双目红外摄像头采集的第一目图像和第二目图像;
将采集的第一目图像输入深度学习网络,输出深度图;
利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像;
将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定深度估计模型。
在一些实施例中,在将采集的第一目图像输入深度学习网络,输出深度图之前,深度估计模型训练方法还包括:
对采集的第一目图像和第二目图像进行Gamma变换;
其中,输入深度学习网络的采集的第一目图像为变换后的第一目图像。
在一些实施例中,采用如下公式,对采集的第一目图像和第二目图像进行Gamma变换:
Ι=255*(I/255)γ,其中γ用于控制Gamma变换的强度。
在一些实施例中,深度学习网络包括编码器和解码器;
将采集的第一目图像输入深度学习网络,输出深度图,包括:
将采集的第一目图像输入编码器,得到第一目图像的图像特征;
将第一目图像的图像特征输入解码器,输出深度图。
在一些实施例中,编码器由多个卷积模块级联而成。
在一些实施例中,解码器由多个卷积模块级联而成。
在一些实施例中,利用深度图生成点云图,包括:
利用深度图与采集第一目图像的第一摄像头的内参生成点云图。
在一些实施例中,利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像,包括:
利用双目红外摄像头的第一摄像头和第二摄像头的位姿矩阵、第二目图像及双目红外摄像头的内参将点云图映射成与采集的第一目图像对齐的生成的第一目图像。
在一些实施例中,双目红外摄像头设置有RGB滤光片。
本公开第二方面还提供一种深度估计方法,其包括:
获取使用单目红外摄像头采集的单目图像;
将单目图像输入使用上述深度估计模型训练方法得到的深度估计模型,输出深度图。
在一些实施例中,单目红外摄像头设置有RGB滤光片。
本公开第三方面还提供一种深度估计模型训练装置,其包括:
第一获取模块,获取使用双目红外摄像头采集的第一目图像和第二目图像;
预测模块,将采集的第一目图像输入深度学习网络,输出深度图;
生成模块,利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像;
训练模块,将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定深度估计模型。
本公开第四方面还提供一种深度估计装置,其包括:
第二获取模块,获取使用单目红外摄像头采集的单目图像;
估计模块,将单目图像输入使用第一方面任一项的深度估计模型训练方法得到的深度估计模型,输出深度图。
本公开第五方面提供一种计算机装置,包括:通信器、存储器及处理器;通信器用于与外部通信;存储器存储有程序指令;处理器用于运行程序指令以执行如第一方面任一项的深度估计模型训练方法或第二方面任一项的深度估计方法。
本公开第六方面提供一种计算机可读存储介质,存储有程序指令,程序指令被运行以执行如第一方面任一项的深度估计模型训练方法或第二方面任一项的深度估计方法。
如上,本公开实施例中提供深度估计模型训练、深度估计方法、装置及存储介质,通过获取使用双目红外摄像头采集的第一目图像和第二目图像,将采集的第一目图像输入深度学习网络,输出深度图,利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像,将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定深度估计模型。本实施例采用无监督方案训练深度估计模型,训练好的深度估计模型可用于对单目红外摄像头拍摄的单目图像进行深度估计。其中,无监督方案可解决训练数据不足的问题,因此本方案能够提升深度估计精确度,提升深度图精准度。
附图说明
图1展示本公开实施例提供的深度估计模型训练方法的流程图之一;
图2展示本公开实施例提供的深度估计模型训练方法的流程图之二;
图3展示本公开实施例提供的深度估计方法的流程图;
图4展示本公开实施例提供的深度估计模型训练装置的模块示意图;
图5展示本公开实施例提供的深度估计装置的模块示意图;
图6展示本公开一实施例中计算机装置的结构示意图。
具体实施方式
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本公开所揭露的消息轻易地了解本公开的其他优点与功效。本公开还可以通过另外不同的具体实施方式加以实施或应用系统,本公开中的各项细节也可以根据不同观点与应用系统,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本公开的实施例进行详细说明,以便本公开所属技术领域的技术人员能够容易地实施。本公开可以以多种不同形态体现,并不限定于此处说明的实施例。
在本公开的表示中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本公开的至少一个实施例或示例中。而且,表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本公开中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在相关技术中,基于摄像头成像的深度估计算法可分为传统算法与基于深度学习的算法,其中基于深度学习的算法包括单目方案和双目方案。这些方案均以RGB摄像头的图像作为输入来进行深度估计,但这也使得难以在暗光下准确估计图像深度。
如果采用带有RGB滤光片的单目红外摄像头获取的图像作为输入,该滤光片用于过滤RGB光,能够提升算法在暗光场景的表现,但是由于缺少真实深度的红外图像数据,导致训练数据不足,此时会降低深度值估计精确度。
图1展示本公开实施例提供的深度估计模型训练方法,如图1所示,本深度估计模型训练方法包括:
步骤110:获取使用双目红外(Infrared,简称IR)摄像头采集的第一目图像和第二目图像;
步骤120:将采集的第一目图像输入深度学习网络,输出深度图;
步骤130:利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像;
步骤140:将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定深度估计模型。
本实施例采用无监督方案训练深度估计模型,训练好的深度估计模型可用于对单目红外摄像头拍摄的单目图像进行深度估计。其中,无监督方案可解决训练数据不足的问题,因此本方案能够提升深度估计精确度,提升深度图精准度。
在本公开实施例中,从数据库提取训练数据,并从训练数据中提取同一双目红外摄像头采集的第一目图像和第二目图像。
在本公开实施例中,第一目图像和第二目图像均为红外图像,第一目图像为左图像且第二目图像为右图像,或第一目图像为右图像且第二目图像为左图像。
在相应实施例中,双目红外摄像头外还搭配有红外发射器(IP Projector),用来补充红外光。
在本公开实施例中,双目红外摄像头设置有RGB滤光片,RGB滤光片用来过滤RGB光线。红外摄像头能够大大提升模型在暗光场景的表现,而RGB滤光片的存在可以保证模型在亮光下的表现。
图2展示本公开实施例提供的深度估计模型训练方法,如图2所示,本深度估计模型训练方法包括:
步骤210:获取使用双目红外摄像头采集的第一目图像和第二目图像;
步骤220:对采集的第一目图像和第二目图像进行Gamma变换;
步骤230:将变换后的采集的第一目图像输入深度学习网络,输出深度图;
步骤240:利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像;
步骤250:将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定深度估计模型。
其中,Gamma变换就是用来图像增强,其提升了暗部细节,简单来说就是通过非线性变换,让图像从暴光强度的线性响应变得更接近人眼感受的响应,这可以使深度学习网络更好地处理暗光场景。
在本公开实施例中,采用如下公式,对采集的第一目图像和第二目图像进行Gamma变换:
Ι=255*(I/255)γ,其中γ用于控制Gamma变换的强。
在本公开实施例中,深度学习网络包括编码器和解码器;
在这种情况下,将采集的第一目图像输入深度学习网络,输出深度图,包括:
将采集的第一目图像输入编码器,得到第一目图像的图像特征;
将第一目图像的图像特征输入解码器,输出深度图。
在该实施例中,可将Gamma变换后的第一目图像输入深度学习网络的编码器进行特征提取,编码器由多个卷积模块级联而成,最后输出提取得到的图像特征。
在相应实施例中,将编码器输出的图像特征输入到解码器,解码器由多个卷积模块级联而成,最后输出与第一目图像对齐的深度图。
在本公开实施例中,利用深度图生成点云图,包括:
利用深度图与采集第一目图像的第一摄像头的内参生成点云图。
在相应实施例中,将深度图转为点云图,实际是将国际坐标系变换为世界坐标系,变换的约束条件是第一摄像头的内参,其公式如下:
其中x、y、z是点云坐标系,x′和y′是图像坐标系,D为深度值,和/>为第一摄像头的内参,对其原理不再赘述。
利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像,包括:
利用双目红外摄像头的第一摄像头和第二摄像头的位姿矩阵、第二目图像及双目红外摄像头的内参将点云图映射成与采集的第一目图像对齐的生成的第一目图像。
本实施例提出将点云图映射成生成的第一目图像的具体手段。
在本公开实施例中,由于生成的第一目图像是由深度学习网络预测的深度图转换得到,因此深度图的精确度决定了生成的第一目图像与所采集的第一目图像之间的相似度,因而通过将采集的第一目图像与生成的第一目图像进行对比,可以反映深度图的精确度,进而可以通过将采集的第一目图像与生成的第一目图像进行对比来获得损失函数,利用该损失函数调节深度学习网络的模型参数。
在相应实施例中,将原始采集的第一目图像Ir与生成的第一目图像进行对比,获得损失函数,损失函数可以为L1 loss,L2 loss等,这里使用如下公式:
其中SSIM是结构相似性指标,‖·‖1表示L1范数。
通过最小化损失函数,利用adam优化器优化网络,即可训练获得最终的深度估计模型。
在本公开实施例中,训练停止条件可以是,损失函数最小或达到预设迭代次数等,在此不做限定。
图3展示本公开实施例提供的深度估计方法的流程图,如图3所示,本深度估计方法可以包括但不限于如下步骤:
步骤310:获取使用单目红外摄像头采集的单目图像;
步骤320:将单目图像输入使用图1或图2所示训练方法得到的深度估计模型,输出深度图。
因此,本方法使用双目红外摄像头的双目图像训练深度估计模型,并用于对单目红外摄像头拍摄的单目图像进行深度估计,深度图的精准度高。
在本公开实施例中,该单目红外摄像头设置有RGB滤光片,用来过滤RGB光。单目红外摄像头外还配置有红外发射器,用来补偿红外光。
如图4所示,展示本公开一实施例的深度估计模型训练装置的模块示意图。需说明的是,深度估计模型训练装置的原理可以参考之前实施例中的深度估计模型训练方法,故此处不对相同技术内容执行重复赘述。
深度估计模型训练装置400可以包括:
第一获取模块410,获取使用双目红外摄像头采集的第一目图像和第二目图像;
预测模块420,将采集的第一目图像输入深度学习网络,输出深度图;
生成模块430,利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像;
训练模块440,将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定深度估计模型。
在一些实施例中,第一获取模块410还设置为:
在将采集的第一目图像输入深度学习网络,输出深度图之前,对采集的第一目图像和第二目图像进行Gamma变换;
其中,输入深度学习网络的采集的第一目图像为变换后的第一目图像。
在一些实施例中,采用如下公式,对采集的第一目图像和第二目图像进行Gamma变换:
Ι=255*(I/255)γ,其中γ用于控制Gamma变换的强度。
在一些实施例中,深度学习网络包括编码器和解码器;
预测模块420具体设置为:
将采集的第一目图像输入编码器,得到第一目图像的图像特征;
将第一目图像的图像特征输入解码器,输出深度图。
在一些实施例中,编码器由多个卷积模块级联而成。
在一些实施例中,解码器由多个卷积模块级联而成。
在一些实施例中,生成模块430具体设置为:
利用深度图与采集第一目图像的第一摄像头的内参生成点云图。
在一些实施例中,利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像,包括:
利用双目红外摄像头的第一摄像头和第二摄像头的位姿矩阵、第二目图像及双目红外摄像头的内参将点云图映射成与采集的第一目图像对齐的生成的第一目图像。
如图5所示,展示本公开一实施例的深度估计装置的模块示意图。需说明的是,深度估计装置的原理可以参考之前实施例中的深度估计方法,故此处不对相同技术内容执行重复赘述。
深度估计装置500可以包括:
第二获取模块510,获取使用单目红外摄像头采集的单目图像;
估计模块520,将单目图像输入使用图1或图2所示深度估计模型训练方法训练得到的深度估计模型,输出深度图。
需特别说明的是,在图4或图5实施例中的各个功能模块,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以程序指令产品的形式实现。程序指令产品包括一个或多个程序指令。在计算机上加载和执行程序指令指令时,全部或部分地产生按照本公开的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
并且,图4或图5实施例所揭露的装置,可通过其它的模块划分方式实现。以上所表示的系统实施例仅仅是示意性的,例如模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或模块可以结合或者可以动态到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接于可以是通过一些接口,装置或模块的间接耦合或通信连接于,可以是电性或其它的形式。
另外,图4或图5实施例中的各功能模块及子模块可以动态在一个处理部件中,也可以是各个模块单独物理存在,也可以两个或两个以上模块动态在一个部件中。上述动态的部件既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述动态的部件如果以软件功能模块的形式实现并执行为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
本公开实施例中还可以提供一种计算机可读存储介质,存储有程序指令,程序指令被运行时执行之前图1-3实施例中的方法步骤。
上述实施例中的方法步骤被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此表示的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。
需特别说明的是,本公开上述实施例的流程图表示的流程或方法表示可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
例如,图1-3所示实施例中的各个步骤的顺序可能可以在具体场景中加以变化,并非以上述表示为限。
如图6所示,展示本公开一实施例中计算机装置的结构示意图。
在一些实施例中,计算机装置用于装载实现深度估计模型训练方法或深度估计方法的程序指令。计算机装置具体可实现为例如服务器、台式机、笔记本电脑、移动终端等,而可能被基于开发、测试等商业目的而存储和/或运行此程序指令的实施者所使用。
图6展示的计算机装置600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,计算机装置600以通用计算设备的形式表现。计算机装置600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得计算机装置用于实现本公开上述实施例(例如图1-图3实施例)中描述方法步骤。
在一些实施例中,存储单元620可以包括易失性存储单元,例如随机存取存储单元(RAM)621和/或高速缓存存储单元622,还可以进一步包括只读存储单元(ROM)623。
在一些实施例中,存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624,这样的程序模块625包括但不限于:操执行系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
在一些实施例中,总线630可以包括数据总线、地址总线和控制总线。
在一些实施例中,计算机装置600也可以与一个或多个外部设备60(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口650进行。可选的,计算机装置600还包括显示单元640,其连接到输入/输出(I/O)接口650,用于进行显式。并且,计算机装置600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线830与计算机装置600的其它模块通信。应当明白,尽管图中未示出,可以结合计算机装置600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
综上,本公开实施例中提供深度估计模型训练、深度估计方法、装置及存储介质,通过获取使用双目红外摄像头采集的第一目图像和第二目图像,将采集的第一目图像输入深度学习网络,输出深度图,利用深度图生成点云图,并利用点云图与第二目图像将点云图映射成与采集的第一目图像对齐的生成的第一目图像,将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据损失函数训练深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定深度估计模型。本实施例采用无监督方案训练深度估计模型,训练好的深度估计模型可用于对单目红外摄像头拍摄的单目图像进行深度估计。其中,无监督方案可解决训练数据不足的问题,因此本方案能够提升深度估计精确度,提升深度图精准度。
上述实施例仅例示性说明本公开的原理及其功效,而非用于限制本公开。任何熟悉此技术的人士皆可在不违背本公开的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本公开所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本公开的权利要求所涵盖。

Claims (15)

1.一种深度估计模型训练方法,其特征在于,包括:
获取使用双目红外摄像头采集的第一目图像和第二目图像;
将采集的第一目图像输入深度学习网络,输出深度图;
利用所述深度图生成点云图,并利用所述点云图与第二目图像将所述点云图映射成与采集的第一目图像对齐的生成的第一目图像;
将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据所述损失函数训练所述深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定所述深度估计模型。
2.根据权利要求1所述的深度估计模型训练方法,其特征在于,在将采集的第一目图像输入深度学习网络,输出深度图之前,所述深度估计模型训练方法还包括:
对采集的第一目图像和第二目图像进行Gamma变换;
其中,输入所述深度学习网络的采集的第一目图像为变换后的第一目图像。
3.根据权利要求2所述的深度估计模型训练方法,其特征在于,采用如下公式,对采集的第一目图像和第二目图像进行Gamma变换:
Ι=255*(I/255)γ,其中γ用于控制Gamma变换的强度。
4.根据权利要求1所述的深度估计模型训练方法,其特征在于,所述深度学习网络包括编码器和解码器;
将采集的第一目图像输入深度学习网络,输出深度图,包括:
将采集的第一目图像输入所述编码器,得到所述第一目图像的图像特征;
将所述第一目图像的图像特征输入所述解码器,输出深度图。
5.根据权利要求4所述的深度估计模型训练方法,其特征在于,所述编码器由多个卷积模块级联而成。
6.根据权利要求4所述的深度估计模型训练方法,其特征在于,所述解码器由多个卷积模块级联而成。
7.根据权利要求1所述的深度估计模型训练方法,其特征在于,所述利用所述深度图生成点云图,包括:
利用所述深度图与采集所述第一目图像的第一摄像头的内参生成点云图。
8.根据权利要求1所述的深度估计模型训练方法,其特征在于,所述利用所述点云图与第二目图像将所述点云图映射成与采集的第一目图像对齐的生成的第一目图像,包括:
利用所述双目红外摄像头的第一摄像头和第二摄像头的位姿矩阵、所述第二目图像及所述双目红外摄像头的内参将所述点云图映射成与采集的第一目图像对齐的生成的第一目图像。
9.根据权利要求1所述的深度估计模型训练方法,其特征在于,所述双目红外摄像头设置有RGB滤光片。
10.一种深度估计方法,其特征在于,包括:
获取使用单目红外摄像头采集的单目图像;
将所述单目图像输入使用权利要求1-9中任一项所述深度估计模型训练方法得到的深度估计模型,输出深度图。
11.根据权利要求10所述的深度估计方法,其特征在于,所述单目红外摄像头设置有RGB滤光片。
12.一种深度估计模型训练装置,其特征在于,包括:
第一获取模块,获取使用双目红外摄像头采集的第一目图像和第二目图像;
预测模块,将采集的第一目图像输入深度学习网络,输出深度图;
生成模块,利用所述深度图生成点云图,并利用所述点云图与第二目图像将所述点云图映射成与采集的第一目图像对齐的生成的第一目图像;
训练模块,将采集的第一目图像与生成的第一目图像进行对比,获得损失函数,根据所述损失函数训练所述深度学习网络,直到达到训练停止条件,根据训练好的深度学习网络确定所述深度估计模型。
13.一种深度估计装置,其特征在于,包括:
第二获取模块,获取使用单目红外摄像头采集的单目图像;
估计模块,将所述单目图像输入使用权利要求1-9中任一项所述的深度估计模型,输出深度图。
14.一种计算机装置,其特征在于,包括:通信器、存储器及处理器;所述通信器用于与外部通信;所述存储器存储有程序指令;所述处理器用于运行所述程序指令以执行如权利要求1至9中任一项所述的深度估计模型训练方法,或权利要求10或11所述的深度估计方法。
15.一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令被运行以执行如权利要求1至9中任一项所述的深度估计模型训练方法,或权利要求10或11所述的深度估计方法。
CN202310641890.3A 2023-06-01 2023-06-01 深度估计模型训练、深度估计方法、装置及存储介质 Pending CN116630779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310641890.3A CN116630779A (zh) 2023-06-01 2023-06-01 深度估计模型训练、深度估计方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310641890.3A CN116630779A (zh) 2023-06-01 2023-06-01 深度估计模型训练、深度估计方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116630779A true CN116630779A (zh) 2023-08-22

Family

ID=87613164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310641890.3A Pending CN116630779A (zh) 2023-06-01 2023-06-01 深度估计模型训练、深度估计方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116630779A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765499A (zh) * 2023-12-30 2024-03-26 武汉奥思工业设计有限公司 一种车辆辅助驾驶智能决策方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765499A (zh) * 2023-12-30 2024-03-26 武汉奥思工业设计有限公司 一种车辆辅助驾驶智能决策方法及系统

Similar Documents

Publication Publication Date Title
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN110428491B (zh) 基于单帧图像的三维人脸重建方法、装置、设备及介质
CN108364270B (zh) 偏色图像颜色还原方法及装置
CN115861601B (zh) 一种多传感器融合感知方法及装置
EP3872760A2 (en) Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
CN111738948B (zh) 一种基于双U-net的水下图像增强方法
CN116630779A (zh) 深度估计模型训练、深度估计方法、装置及存储介质
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
CN113192049A (zh) 基于LatLRR和Retinex增强的可见光和红外图像融合方法
CN115100337A (zh) 一种基于卷积神经网络的全身人像视频重照明方法和装置
CN116957948A (zh) 图像处理方法、电子产品和存储介质
CN113177898B (zh) 一种图像去雾方法、装置及电子设备和存储介质
CN113902789A (zh) 图像特征处理、深度图像生成方法及装置、介质和设备
CN117788544A (zh) 一种基于轻量级注意力机制的图像深度估计方法
CN113034675B (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
CN115035170A (zh) 基于全局纹理与结构的图像修复方法
CN117940951A (zh) 确定图像信号处理参数的方法、装置和感知系统
CN109741250B (zh) 图像处理方法及装置、存储介质和电子设备
Weiher Domain adaptation of HDR training data for semantic road scene segmentation by deep learning
JP2020087069A (ja) 動きベクトル生成装置、投影像生成装置、動きベクトル生成方法、およびプログラム
US20230252714A1 (en) Shape and appearance reconstruction with deep geometric refinement
CN114760422B (zh) 一种逆光检测方法及系统、电子设备及存储介质
US20240013341A1 (en) Point cloud processing method and electronic device
CN118314053B (zh) 一种基于神经网络的对无人机巡检航拍图像去雾方法
KR102543272B1 (ko) 영역 기반 안개 제거 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination