CN117392192A - 图像深度预测方法、装置、可读存储介质及电子设备 - Google Patents

图像深度预测方法、装置、可读存储介质及电子设备 Download PDF

Info

Publication number
CN117392192A
CN117392192A CN202210770566.7A CN202210770566A CN117392192A CN 117392192 A CN117392192 A CN 117392192A CN 202210770566 A CN202210770566 A CN 202210770566A CN 117392192 A CN117392192 A CN 117392192A
Authority
CN
China
Prior art keywords
image
layer
depth
depth image
cloud data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210770566.7A
Other languages
English (en)
Inventor
宋健飞
陈国芳
陈荆勇
贺琼英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BYD Co Ltd
Original Assignee
BYD Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BYD Co Ltd filed Critical BYD Co Ltd
Priority to CN202210770566.7A priority Critical patent/CN117392192A/zh
Publication of CN117392192A publication Critical patent/CN117392192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Optics & Photonics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种图像深度预测方法、装置、可读存储介质及电子设备,该方法包括:获取同一场景的二维图像及点云数据,将点云数据投影至二维图像上,生成稀疏深度图像,基于透视几何原理对稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像,通过神经网络及语义分割模型的分割结果对初始稠密深度图像进行参数优化,得到稠密深度图像;通过融合点云数据与二维图像,得到稀疏深度图像,基于透视几何原理对稀疏深度图像进行深度估算,简单高效地消除异常估算值,最后通过神经网络及语义分割模型对深度估算的结果进行优化,确保图像场景中各类别信息的深度估算误差全局最小化,最终获得相对精准的图像全局深度预测。

Description

图像深度预测方法、装置、可读存储介质及电子设备
技术领域
本公开涉及图像处理领域,具体地,涉及一种图像深度预测方法、装置、可读存储介质及电子设备。
背景技术
相关技术中,通过神经网络对图像深度进行预测,即基于神经网络中的深度分支网络和置信度分支网络对待预测图像进行预测,从而确定待预测图像的深度。但是这种预测方式存在诸多弊端,如构造了多层且复杂的级联网络模型,在特征提取过程中多级网络的前后依赖,可能引发的误差传递致使模型精度有限,同时拥有的大量参数模型收敛困难,进行预测效率、速率有限。
发明内容
本公开的目的是提供一种图像深度预测方法、装置、电子设备及计算机可读存储介质,用以解决现有的基于神经网络中的深度分支网络和置信度分支网络预测图像深度导致的预测效率、速率有限的问题。
根据本公开实施例的第一方面,提供一种图像深度预测方法,包括:获取同一场景的二维图像及点云数据;将所述点云数据投影至所述二维图像上,生成稀疏深度图像;基于透视几何原理对所述稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像;通过神经网络及语义分割模型的分割结果对所述初始稠密深度图像进行参数优化,得到稠密深度图像;所述分割结果为所述二维图像的像素点标签分类。
可选地,所述二维图像由相机获取得到,所述点云数据由激光雷达获取得到;所述将所述点云数据投影至所述二维图像上,生成稀疏深度图像的步骤包括:
基于所述相机和所述激光雷达联合标定的外参,将所述点云数据投影至所述二维图像上,生成所述稀疏深度图像;所述联合标定的外参表征所述二维图像与所述点云数据中同一目标上的像素点之间的数据转换关系。
可选地,所述神经网络为基于反向传播算法的前馈神经网络;所述前馈神经网络包括输入层、隐藏层和输出层;所述输入层、所述隐藏层和所述输出层之间通过网络权重和偏差进行连接。
可选地,所述通过神经网络及语义分割模型的分割结果对所述初始稠密深度图像进行参数优化,得到稠密深度图像的步骤包括:将所述初始稠密深度图像的像素点坐标、像素点类别标签和像素点深度值作为所述前馈神经网络的输入;所述像素点深度值表征所述初始稠密深度图像中像素点到激光雷达的物理距离;所述前馈神经网络根据所述分割结果修正所述像素点深度值,得到所述稠密深度图像。
可选地,还包括:根据所述初始稠密深度图像的像素点坐标、图像消失点、所述像素点类别标签和所述像素点深度值构造所述稠密深度图像的损失函数;所述图像消失点为所述初始稠密深度图像的透视几何图像消失点;或所述前馈神经网络通过设置不同网络层数的模拟非线性的连续函数来构造预测所述损失函数。
可选地,所述语义分割模型是预先训练好的;所述语义分割模型的训练过程包括:采集与所述场景相关的被测场景的样本图像;对所述样本图像进行类别标注;将标注后的样本图像作为输入图像,输入至高效的残差分解网络进行训练,得到所述语义分割模型。
可选地,所述语义分割模型包括第一下采样层、第二下采样层、第三下采样层、第一上采样层、第二上采样层和第三上采样层;所述第一下采样层包括卷积层、批归一化层和激活层,用于对所述输入图像进行特征提取,得到第一特征图;所述第二下采样层包括卷积层、批归一化层、激活层和五层级联的高效残差分解模块,用于对所述第一特征图进行特征提取和特征融合,得到第二特征图;所述第三下采样层包括卷积层、批归一化层、激活层和八层级联的高效残差分解模块,用于对所述第二特征图进行特征提取和特征融合,得到第三特征图;所述第一上采样层包括反卷积层和批归一化层,用于对所述第三特征图进行上采样操作,得到第四特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对所述第四特征图进行特征融合,得到第五特征图;所述第二上采样层包括反卷积层和批归一化层,用于对所述第五特征图进行上采样操作,得到第六特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对所述第六特征图进行特征融合,得到第七特征图;所述第三上采样层包括反卷积层和批归一化层,用于对所述第七特征图进行上采样操作,得到输出图像;所述输出图像的尺寸与所述输入图像的尺寸相同。
可选地,所述将标注后的样本图像作为输入图像,输入至高效的残差分解网络进行训练,得到所述语义分割模型的步骤包括:获取所述输入图像与所述输出图像之间的差值;根据所述差值调整所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第一上采样层、所述第二上采样层和所述第三上采样层的参数,得到所述语义分割模型。
根据本公开实施例的第二方面,提供一种图像深度预测装置,包括:获取模块,用于获取同一场景的二维图像及点云数据;投影模块,用于将所述点云数据投影至所述二维图像上,生成稀疏深度图像;估算模块,用于基于透视几何原理对所述稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像;处理模块,用于通过神经网络及语义分割模型的分割结果对所述初始稠密深度图像进行参数优化,得到稠密深度图像;所述分割结果为所述二维图像的像素点标签分类。
根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的图像深度预测方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现前述的图像深度预测方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过融合点云数据与二维图像,得到稀疏深度图像,基于透视几何原理对稀疏深度图像进行深度估算,简单高效地消除异常估算值,最后通过神经网络及语义分割模型对深度估算的结果进行优化,确保图像场景中各类别信息的深度估算误差全局最小化,最终获得相对精准的图像全局深度预测,避免了构造多层且复杂的级联网络模型,避免了在特征提取过程中多级网络的前后依赖,可能引发的误差传递致使模型精度有限,避免了拥有大量参数的模型的收敛困难,数据融合方式能更高效地、实时获取稀疏且准确的先验像素深度值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开示例性实施例示出的计算机系统的结构示意图。
图2是本公开示例性实施例示出的一种图像深度预测方法的流程图。
图3是本公开示例性实施例示出的另一种图像深度预测方法的流程图。
图4是本公开示例性实施例示出的一种图像深度预测装置框图。
图5是本公开示例性实施例示出的一种电子设备的框图。
图6是本公开示例性实施例示出的另一种电子设备的框图。
附图标记说明
120-终端;140-服务器;20-图像深度预测装置;201-获取模块;203-投影模块;205-估算模块;207-处理模块;400-电子设备;401-处理器;402-存储器;403-多媒体组件;404-I/O接口;405-通信组件;500-电子设备;522-处理器;532-存储器;526-电源组件;550-通信组件;558-I/O接口。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1示出了本公开一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
终端120与服务器140之间通过有线或者无线网络相互连接。
终端120可以包括智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。
终端120包括显示器;显示器用于显示图像深度预测结果
终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现本公开提供的图像深度预测方法。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(ReadOnly Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(Network Processor,NP)。
服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本公开提供的图像深度预测方法。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、EPROM、EEPROM。可选地,第二处理器可以是通用处理器,比如,CPU或者NP。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
请参阅图2,图2为本公开示例性实施例示出的一种图像深度预测方法的流程图。该方法由计算机设备来执行,例如,由图1所示的计算机系统中的终端或服务器来执行。图2所示的图像深度预测方法包括以下步骤:
在步骤S101中,获取同一场景的二维图像及点云数据。
同一场景是指同一个场景图像的二维图像和点云数据,二维图像和点云数据包含了相同的目标物体,相同的环境,二维图像与点云数据是一张图像的两种呈现方式,在一种实施方式中,二维图像由相机获取得到,点云数据由激光雷达获取得到。
在步骤S102中,将点云数据投影至二维图像上,生成稀疏深度图像。
示例性的,可以通过数据融合模块点云数据投影至二维图像上,根据点云数据与二维图像的数据转换关系,将场景图像中同一位置的点云数据像素点与二维图像像素点对应起来,以融合二维图像与点云数据,生成稀疏深度图像。相比于二维图像而言,点云数据投影至二维图像上后的像素点数量较少,比较稀疏,因此称为稀疏深度图像。
在步骤S103中,基于透视几何原理对稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像。
点云数据投影至二维图像上后的像素点数量较少,因此只有少量的场景图像像素点具有深度信息,可以基于透视几何原理对稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像。其中,深度信息包括像素点深度值,像素点深度值表征场景图像中像素点到获取图像的电子设备的物理距离,如相机、激光雷达等获取图像的电子设备。
在步骤S104中,通过神经网络及语义分割模型的分割结果对初始稠密深度图像进行参数优化,得到稠密深度图像。
示例性的,神经网络可以是一种基于反向传播算法的前馈神经网络,语义分割模型是基于被测场景的样本图像预先训练好的,被测场景是与前述场景相关的场景,分割结果为二维图像的像素点标签分类,如二维图像中各个目标物体像素点的标签分类,然后基于反向传播(Backpropagation)算法及分割结果对前述得到的初始稠密深度图像进行参数优化,即优化初始稠密深度图像中每个像素点的深度值,得到稠密深度图像,例如,纠正初始稠密深度图像中一些深度值有明显错误的像素点,最后将优化后、相对精准的稠密深度图像用于校准估算算法系数及场景分割权重。
请参阅图3,图3为本公开示例性实施例示出的另一种图像深度预测方法的流程图。该方法由计算机设备来执行,例如,由图1所示的计算机系统中的终端或服务器来执行。需要说明的是,图3所示的图像深度预测方法与图2所示的图像深度预测方法的实施方式内容一致,图3中未提及之处可以参考图2的描述,在此不再赘述。图3所示的图像深度预测方法包括以下步骤:
在步骤S101中,获取同一场景的二维图像及点云数据。
同一场景是指同一个场景图像的二维图像和点云数据,二维图像和点云数据包含了相同的目标物体,相同的环境,二维图像与点云数据是一张图像的两种呈现方式,在一种实施方式中,二维图像由相机获取得到,点云数据由激光雷达获取得到。
在步骤S102中,将点云数据投影至二维图像上,生成稀疏深度图像。
示例性的,可以通过数据融合模块,基于相机和激光雷达联合标定的外参,实时将与二维图像同步的点云数据投影到二维图像上,根据点云数据与二维图像的数据转换关系,将场景图像中同一位置的点云数据像素点与二维图像像素点对应起来,以融合二维图像与点云数据,生成稀疏深度图像。相比于二维图像而言,点云数据投影至二维图像上后的像素点数量较少,比较稀疏,因此称为稀疏深度图像。数据转换关系是基于相机和激光雷达联合标定的外参得到的。
对于二维图像而言,图像中目标物体的像素集是稠密的,将点云数据投影至该二维图像上后,目标物体的部分像素点会得到深度值,另一部分像素点没有深度值,有深度值的像素点可以记为包含先验深度的像素点,没有深度值的像素点可以记为无有效先验深度的像素点。
相比于相关技术中基于多层级的神经网络通过提取深度特征图和置信度特征图进行的像素深度估算精度和效率而言,数据融合方式能更高效地、实时获取稀疏且准确的先验像素深度值。
在步骤S103中,基于透视几何原理对稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像。
点云数据投影至二维图像上后的像素点数量较少,因此只有少量的场景图像像素点具有深度信息,可以基于透视几何原理对稀疏深度图像中缺少深度信息的像素点进行深度估算,得到像素点的预估深度值,记为初始稠密深度图像。其中,深度信息包括像素点深度值,像素点深度值表征场景图像中像素点到获取图像的电子设备的物理距离,如相机、激光雷达等获取图像的电子设备。
几何透视原理借助于近大远小的透视现象来表现图像中各种目标物体的立体感,其中最明显的现象就是图像中平行线的会聚,类似于公路或铁路伸向远方那样,越远越小,而越近就越大。利用这个几何透视原理,可以画出任何目标物体的空间距离。目标物体形体有的时候在视觉上也会出现这种近的大、远的小的现象。同样大小的图形感觉上远近相同,不同大小的图形感觉上大的近些、小的远些。同样,任何一个目标物体,由于它们在空间中所在的位置与观者的位置不同,因而在图像中,也会有高低位置的区别,从而出现空间感觉。
基于透视几何原理对稀疏深度图像中缺少深度信息的像素点进行深度估算,避免了构造多层且复杂的级联网络模型,避免了在特征提取过程中多级网络的前后依赖,可能引发的误差传递致使模型精度有限,及拥有大量参数的模型收敛困难的问题。
在步骤S104中,通过神经网络及语义分割模型的分割结果对初始稠密深度图像进行参数优化,得到稠密深度图像。
示例性的,神经网络可以是一种基于反向传播算法的前馈神经网络,前馈神经网络包括输入层、隐藏层和输出层;输入层、隐藏层和输出层之间通过网络权重和偏差进行连接,通过设置不同网络层的模拟非线性的连续函数来构造稠密深度图像估算的损失函数。或者根据初始稠密深度图像的像素点坐标、图像消失点、像素点类别标签和像素点深度值构造稠密深度图像的损失函数;图像消失点为初始稠密深度图像的透视几何图像消失点,像素点类别标签用于区分初始稠密深度图像中的目标物体,如路面、轨道、车辆等目标物体,可以根据语义分割模型的分割结果得到像素点类别标签,像素点深度值为初始稠密深度图像的预估深度值。
示例性的,该损失函数的计算公式可以包括:
其中,公式(1)为包含先验深度的像素点的损失函数,公式(2)为无有效先验深度的像素点的损失函数,可以通过邻域类别的先验深度进行联合估算;(xi,yi)为初始稠密深度图像的像素点坐标,α、β及ω为预先设定的估算系数,λ为预先设定的调和系数,(xc,yc)为初始稠密深度图像的图像消失点,为初始稠密深度图像的像素点深度值,M*N为初始稠密深度图像中某一目标物体的像素面积,或者称为目标物体的像素高度和宽度,C为初始稠密深度图像中某一目标物体的类别。
示例性的,语义分割模型是基于被测场景的样本图像预先训练好的,被测场景是与步骤S101中的场景相关的场景,如自动驾驶车辆行驶过程中相关的场景,包含轨道、路面、车辆等的场景。分割结果为二维图像的像素点标签分类,如二维图像中各个目标物体像素点的标签分类,标签分类用于表示目标物体的类别。
语义分割模型的训练过程包括:采集与场景相关的被测场景的样本图像,对样本图像进行类别标注,将标注后的样本图像作为输入图像,输入至高效的残差分解网络进行训练,得到语义分割模型。对样本图像进行类别标注包括对样本图像中的各种目标物体的类别进行标注。
语义分割模型包括第一下采样层、第二下采样层、第三下采样层、第一上采样层、第二上采样层和第三上采样层。
第一下采样层包括卷积层、批归一化层和激活层,用于对输入图像进行特征提取,得到第一特征图;
第二下采样层包括卷积层、批归一化层、激活层和五层级联的高效残差分解模块,用于对第一特征图进行特征提取和特征融合,得到第二特征图;
第三下采样层包括卷积层、批归一化层、激活层和八层级联的高效残差分解模块,用于对第二特征图进行特征提取和特征融合,得到第三特征图;
第一上采样层包括反卷积层和批归一化层,用于对第三特征图进行上采样操作,得到第四特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对第四特征图进行特征融合,得到第五特征图;
第二上采样层包括反卷积层和批归一化层,用于对第五特征图进行上采样操作,得到第六特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对第六特征图进行特征融合,得到第七特征图;
第三上采样层包括反卷积层和批归一化层,用于对第七特征图进行上采样操作,得到输出图像;输出图像的尺寸与输入图像的尺寸相同。
将标注后的样本图像作为输入图像,输入至高效的残差分解网络进行训练,得到语义分割模型包括:获取输入图像与输出图像之间的差值,根据差值调整第一下采样层、第二下采样层、第三下采样层、第一上采样层、第二上采样层和第三上采样层的参数,在输入图像不变的情况下,调整各层的参数,得到使输出图像与输入图像之间的差值尽量小的最佳参数权重,如差值小于预定阈值,然后将最佳参数权重的模型作为语义分割模型。
最后通过神经网络及语义分割模型的分割结果对初始稠密深度图像进行参数优化,得到稠密深度图像。示例性的,可以基于反向传播算法的前馈神经网络及语义分割模型的分割结果对初始稠密深度图像进行参数优化,得到稠密深度图像。将初始稠密深度图像的像素点坐标、初始稠密深度图像的像素点类别标签和初始稠密深度图像的像素点深度值作为前馈神经网络的输入,像素点深度值表征初始稠密深度图像中像素点到激光雷达的物理距离;然后前馈神经网络根据分割结果修正像素点深度值,得到稠密深度图像。加入语义分割模型的分割结果有利于修正初始稠密深度图像中的目标物体的深度值偏差,及像素点位置。
需要说明的是,初始稠密深度图像中每个像素点的深度值都是一个参数,可以基于反向传播(Backpropagation)算法对这些参数进行优化。基于反向传播(Backpropagation)算法及分割结果对前述得到的初始稠密深度图像进行参数优化,即优化初始稠密深度图像中每个像素点的深度值,得到稠密深度图像,例如,纠正初始稠密深度图像中一些深度值有明显错误的像素点,最后将优化后、相对精准的稠密深度图像用于校准估算算法系数及场景分割权重。
反向传播算法是一种从后往前调整的权重的算法,从神经网络的最后一层开始,逐层调整神经网络的权重,使得神经网络在深度预测时能做出更好的预测,具体的调整算法可以是梯度计算的链式法则(Chain rule)或随机梯度下降(Stochastic gradientdescent)等,本公开对此不作限制。
基于透视几何原理可有效地针对先验的稀疏深度图像进行像素深度稠密估算,后结合语义分割模型的场景类别信息(分割结果),简单高效地消除异常估算值,通过反向传播算法的前馈神经网络修正初始稠密深度图像的估算系数,确保图像场景中各类别信息的深度估算全局最小化,即最终获得相对精准的图像全局深度预测。
综上所述,本公开提供的图像深度预测方法,包括获取同一场景的二维图像及点云数据,将点云数据投影至二维图像上,生成稀疏深度图像,基于透视几何原理对稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像,通过神经网络及语义分割模型的分割结果对初始稠密深度图像进行参数优化,得到稠密深度图像;通过融合点云数据与二维图像,得到稀疏深度图像,基于透视几何原理对稀疏深度图像进行深度估算,简单高效地消除异常估算值,最后通过神经网络及语义分割模型对深度估算的结果进行优化,确保图像场景中各类别信息的深度估算误差全局最小化,最终获得相对精准的图像全局深度预测,避免了构造多层且复杂的级联网络模型,避免了在特征提取过程中多级网络的前后依赖,可能引发的误差传递致使模型精度有限,避免了拥有大量参数的模型的收敛困难,数据融合方式能更高效地、实时获取稀疏且准确的先验像素深度值。
图4是本公开示例性实施例示出的一种图像深度预测装置框图。参照图4,该装置20包括获取模块201、投影模块203、估算模块205和处理模块207。
该获取模块201,用于获取同一场景的二维图像及点云数据;
该投影模块203,用于将所述点云数据投影至所述二维图像上,生成稀疏深度图像;
该估算模块205,用于基于透视几何原理对所述稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像;
该处理模块207,用于通过神经网络及语义分割模型的分割结果对所述初始稠密深度图像进行参数优化,得到稠密深度图像;所述分割结果为所述二维图像的像素点标签分类。
可选地,该投影模块203,还用于基于所述相机和所述激光雷达联合标定的外参,将所述点云数据投影至所述二维图像上,生成所述稀疏深度图像;所述联合标定的外参表征所述二维图像与所述点云数据中同一目标上的像素点之间的数据转换关系。
可选地,所述神经网络为基于反向传播算法的前馈神经网络;
所述前馈神经网络包括输入层、隐藏层和输出层;所述输入层、所述隐藏层和所述输出层之间通过网络权重和偏差进行连接。
可选地,该处理模块207,还用于将所述初始稠密深度图像的像素点坐标、像素点类别标签和像素点深度值作为所述前馈神经网络的输入;所述像素点深度值表征所述初始稠密深度图像中像素点到激光雷达的物理距离;
所述前馈神经网络根据所述分割结果修正所述像素点深度值,得到所述稠密深度图像。
可选地,该处理模块207,还用于根据所述初始稠密深度图像的像素点坐标、图像消失点、所述像素点类别标签和所述像素点深度值构造所述稠密深度图像的损失函数;所述图像消失点为所述初始稠密深度图像的透视几何图像消失点;
或所述前馈神经网络通过设置不同网络层数的模拟非线性的连续函数来构造预测所述损失函数。
可选地,该处理模块207,还用于采集与所述场景相关的被测场景的样本图像;
对所述样本图像进行类别标注;
将标注后的样本图像作为输入图像,输入至高效的残差分解网络进行训练,得到所述语义分割模型。
可选地,所述语义分割模型包括第一下采样层、第二下采样层、第三下采样层、第一上采样层、第二上采样层和第三上采样层;
所述第一下采样层包括卷积层、批归一化层和激活层,用于对所述输入图像进行特征提取,得到第一特征图;
所述第二下采样层包括卷积层、批归一化层、激活层和五层级联的高效残差分解模块,用于对所述第一特征图进行特征提取和特征融合,得到第二特征图;
所述第三下采样层包括卷积层、批归一化层、激活层和八层级联的高效残差分解模块,用于对所述第二特征图进行特征提取和特征融合,得到第三特征图;
所述第一上采样层包括反卷积层和批归一化层,用于对所述第三特征图进行上采样操作,得到第四特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对所述第四特征图进行特征融合,得到第五特征图;
所述第二上采样层包括反卷积层和批归一化层,用于对所述第五特征图进行上采样操作,得到第六特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对所述第六特征图进行特征融合,得到第七特征图;
所述第三上采样层包括反卷积层和批归一化层,用于对所述第七特征图进行上采样操作,得到输出图像;所述输出图像的尺寸与所述输入图像的尺寸相同。
可选地,该处理模块207,还用于获取所述输入图像与所述输出图像之间的差值;
根据所述差值调整所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第一上采样层、所述第二上采样层和所述第三上采样层的参数,得到所述语义分割模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备的框图。如图5所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的图像深度预测方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的图像深度预测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像深度预测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的图像深度预测方法。
图6是根据一示例性实施例示出的另一种电子设备的框图。例如,电子设备500可以被提供为一服务器。参照图6,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器532,用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述的图像深度预测方法。
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像深度预测方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器532,上述程序指令可由电子设备500的处理器522执行以完成上述的图像深度预测方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的图像深度预测方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (11)

1.一种图像深度预测方法,其特征在于,包括:
获取同一场景的二维图像及点云数据;
将所述点云数据投影至所述二维图像上,生成稀疏深度图像;
基于透视几何原理对所述稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像;
通过神经网络及语义分割模型的分割结果对所述初始稠密深度图像进行参数优化,得到稠密深度图像;所述分割结果为所述二维图像的像素点标签分类。
2.根据权利要求1所述的方法,其特征在于,所述二维图像由相机获取得到,所述点云数据由激光雷达获取得到;所述将所述点云数据投影至所述二维图像上,生成稀疏深度图像的步骤包括:
基于所述相机和所述激光雷达联合标定的外参,将所述点云数据投影至所述二维图像上,生成所述稀疏深度图像;所述联合标定的外参表征所述二维图像与所述点云数据中同一目标上的像素点之间的数据转换关系。
3.根据权利要求1所述的方法,其特征在于,所述神经网络为基于反向传播算法的前馈神经网络;
所述前馈神经网络包括输入层、隐藏层和输出层;所述输入层、所述隐藏层和所述输出层之间通过网络权重和偏差进行连接。
4.根据权利要求3所述的方法,其特征在于,所述通过神经网络及语义分割模型的分割结果对所述初始稠密深度图像进行参数优化,得到稠密深度图像的步骤包括:
将所述初始稠密深度图像的像素点坐标、像素点类别标签和像素点深度值作为所述前馈神经网络的输入;所述像素点深度值表征所述初始稠密深度图像中像素点到激光雷达的物理距离;
所述前馈神经网络根据所述分割结果修正所述像素点深度值,得到所述稠密深度图像。
5.根据权利要求3所述的方法,其特征在于,还包括:
根据所述初始稠密深度图像的像素点坐标、图像消失点、所述像素点类别标签和所述像素点深度值构造所述稠密深度图像的损失函数;所述图像消失点为所述初始稠密深度图像的透视几何图像消失点;
或所述前馈神经网络通过设置不同网络层数的模拟非线性的连续函数来构造预测所述损失函数。
6.根据权利要求1所述的方法,其特征在于,所述语义分割模型是预先训练好的;所述语义分割模型的训练过程包括:
采集与所述场景相关的被测场景的样本图像;
对所述样本图像进行类别标注;
将标注后的样本图像作为输入图像,输入至高效的残差分解网络进行训练,得到所述语义分割模型。
7.根据权利要求6所述的方法,其特征在于,所述语义分割模型包括第一下采样层、第二下采样层、第三下采样层、第一上采样层、第二上采样层和第三上采样层;
所述第一下采样层包括卷积层、批归一化层和激活层,用于对所述输入图像进行特征提取,得到第一特征图;
所述第二下采样层包括卷积层、批归一化层、激活层和五层级联的高效残差分解模块,用于对所述第一特征图进行特征提取和特征融合,得到第二特征图;
所述第三下采样层包括卷积层、批归一化层、激活层和八层级联的高效残差分解模块,用于对所述第二特征图进行特征提取和特征融合,得到第三特征图;
所述第一上采样层包括反卷积层和批归一化层,用于对所述第三特征图进行上采样操作,得到第四特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对所述第四特征图进行特征融合,得到第五特征图;
所述第二上采样层包括反卷积层和批归一化层,用于对所述第五特征图进行上采样操作,得到第六特征图,以实现特征恢复;及还包括两层级联的高效残差分解模块,用于对所述第六特征图进行特征融合,得到第七特征图;
所述第三上采样层包括反卷积层和批归一化层,用于对所述第七特征图进行上采样操作,得到输出图像;所述输出图像的尺寸与所述输入图像的尺寸相同。
8.根据权利要求7所述的方法,其特征在于,所述将标注后的样本图像作为输入图像,输入至高效的残差分解网络进行训练,得到所述语义分割模型的步骤包括:
获取所述输入图像与所述输出图像之间的差值;
根据所述差值调整所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第一上采样层、所述第二上采样层和所述第三上采样层的参数,得到所述语义分割模型。
9.一种图像深度预测装置,其特征在于,包括:
获取模块,用于获取同一场景的二维图像及点云数据;
投影模块,用于将所述点云数据投影至所述二维图像上,生成稀疏深度图像;
估算模块,用于基于透视几何原理对所述稀疏深度图像中缺少深度信息的像素点进行深度估算,得到初始稠密深度图像;
处理模块,用于通过神经网络及语义分割模型的分割结果对所述初始稠密深度图像进行参数优化,得到稠密深度图像;所述分割结果为所述二维图像的像素点标签分类。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202210770566.7A 2022-06-30 2022-06-30 图像深度预测方法、装置、可读存储介质及电子设备 Pending CN117392192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210770566.7A CN117392192A (zh) 2022-06-30 2022-06-30 图像深度预测方法、装置、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210770566.7A CN117392192A (zh) 2022-06-30 2022-06-30 图像深度预测方法、装置、可读存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117392192A true CN117392192A (zh) 2024-01-12

Family

ID=89436055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210770566.7A Pending CN117392192A (zh) 2022-06-30 2022-06-30 图像深度预测方法、装置、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117392192A (zh)

Similar Documents

Publication Publication Date Title
JP6745328B2 (ja) 点群データを復旧するための方法及び装置
CN111340864B (zh) 基于单目估计的三维场景融合方法及装置
CN108710885B (zh) 目标对象的检测方法和装置
WO2019223382A1 (zh) 单目深度估计方法及其装置、设备和存储介质
KR20200015611A (ko) 시맨틱 분할 모델을 위한 훈련 방법 및 장치, 전자 기기, 저장 매체
CN110632608B (zh) 一种基于激光点云的目标检测方法和装置
EP3688718A1 (en) Unsupervised learning of image depth and ego-motion prediction neural networks
CN112862877B (zh) 用于训练图像处理网络和图像处理的方法和装置
US11443481B1 (en) Reconstructing three-dimensional scenes portrayed in digital images utilizing point cloud machine-learning models
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
CN113724388B (zh) 高精地图的生成方法、装置、设备以及存储介质
CN111444923A (zh) 自然场景下图像语义分割方法和装置
CN114565916A (zh) 目标检测模型训练方法、目标检测方法以及电子设备
CN114998433A (zh) 位姿计算方法、装置、存储介质以及电子设备
CN113421217A (zh) 可行驶区域检测方法和装置
CN115049730B (zh) 零件装配方法、装置、电子设备及存储介质
CN117392192A (zh) 图像深度预测方法、装置、可读存储介质及电子设备
CN108256477B (zh) 一种用于检测人脸的方法和装置
CN110634159A (zh) 一种目标检测方法和装置
CN113066165B (zh) 多阶段无监督学习的三维重建方法、装置和电子设备
CN115457202A (zh) 一种三维模型更新的方法、装置及存储介质
US10650581B1 (en) Sketch-based 3D fluid volume generation using a machine learning system
CN113506375A (zh) 一种根据地图数据增加场景二维图像深度信息的处理方法
CN112990046A (zh) 差异信息获取方法、相关装置及计算机程序产品
CN116630436B (zh) 相机外参修正方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination