CN116883479A - 单目图像深度图生成方法、装置、设备及介质 - Google Patents

单目图像深度图生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN116883479A
CN116883479A CN202310609281.XA CN202310609281A CN116883479A CN 116883479 A CN116883479 A CN 116883479A CN 202310609281 A CN202310609281 A CN 202310609281A CN 116883479 A CN116883479 A CN 116883479A
Authority
CN
China
Prior art keywords
depth
data
image
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310609281.XA
Other languages
English (en)
Other versions
CN116883479B (zh
Inventor
何方政
伍阔梁
沈阳
彭亮
王甜甜
谢雄
虞世宇
金澄
钱炜
杨政
何晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Meigang Wharf Co ltd
Hangzhou Fabu Technology Co Ltd
Original Assignee
Ningbo Meigang Wharf Co ltd
Hangzhou Fabu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Meigang Wharf Co ltd, Hangzhou Fabu Technology Co Ltd filed Critical Ningbo Meigang Wharf Co ltd
Priority to CN202310609281.XA priority Critical patent/CN116883479B/zh
Publication of CN116883479A publication Critical patent/CN116883479A/zh
Application granted granted Critical
Publication of CN116883479B publication Critical patent/CN116883479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种单目图像深度图生成方法、装置、设备及介质。方法包括:获取单目图像和初始深度数据,其中,初始深度数据用于表征预设深度区间内各子区间的初始长度;对单目图像进行多阶特征提取,获取多阶图像特征;根据多阶图像特征和初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,目标深度数据用于表征预设深度区间内各子区间的目标长度;根据目标图像特征数据和多阶图像特征生成深度概率图,其中,深度概率图包括各像素点的深度属于各子区间的概率;根据目标深度数据和深度概率图生成单目图像深度图。本申请的方法,在提高确定出的场景深度的准确率的同时,减少确定场景深度过程中的内存开销。

Description

单目图像深度图生成方法、装置、设备及介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种单目图像深度图生成方法、装置、设备及介质。
背景技术
随着计算机视觉技术的不断发展,从视觉数据中确定场景深度的方法越来越多。在计算机视觉中,确定场景深度在视频监控、机器人导航、自动驾驶等领域中具有重要的意义。
在现有技术中,采用单目深度估计方法从视觉数据中确定场景深度,例如,基于几何先验知识来捕捉单张二维图像(也即单目图像)中的深度线索,进而推断出场景的三维结构,使得车辆能够感知三维世界,避免与道路上的其他物体发生碰撞。
但是,现实场景复杂多变,采用基于几何先验知识的单目深度估计方法在实际应用过程中存在确定的场景深度的准确率较低的问题。
发明内容
本申请提供一种单目图像深度图生成方法、装置、设备及介质,用以解决采用基于几何先验知识的单目深度估计方法在实际应用过程中存在确定的场景深度的准确率较低问题。
第一方面,本申请实施例提供一种单目图像深度图生成方法,所述单目图像深度图生成方法包括:
获取单目图像和初始深度数据,其中,所述初始深度数据用于表征预设深度区间内各子区间的初始长度;
对所述单目图像进行多阶特征提取,获取多阶图像特征;
根据所述多阶图像特征和所述初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,所述目标深度数据用于表征所述预设深度区间内各子区间的目标长度;
根据所述目标图像特征数据和所述多阶图像特征生成深度概率图,其中,所述深度概率图包括各像素点的深度属于各所述子区间的概率;
根据所述目标深度数据和所述深度概率图生成单目图像深度图。
可选地,所述多阶图像特征包括最高阶图像特征和次高阶图像特征;
所述根据所述多阶图像特征和所述初始深度数据确定注意力计算数据,包括:
根据所述最高阶图像特征和所述次高阶图像特征生成混合图像特征;
根据所述混合图像特征和所述初始深度数据确定所述注意力计算数据。
可选地,所述根据所述最高阶图像特征和所述次高阶图像特征生成混合图像特征,包括:
将所述次高阶图像特征输入预设卷积网络,采用所述预设卷积网络对所述次高阶图像特征进行卷积操作,以获得所述预设卷积网络的输出结果;
将所述预设卷积网络的输出结果和所述最高阶图像特征输入预设融合网络,采用所述预设融合网络对所述预设卷积网络的输出结果和所述最高阶图像特征进行拼接操作,并对拼接后的特征进行卷积操作,以获得所述预设融合网络的输出结果;
将所述预设融合网络的输出结果确定为所述混合图像特征。
可选地,所述根据所述混合图像特征和所述初始深度数据确定所述注意力计算数据,包括:
获取预先存储的注意力权重数据,其中,所述注意力权重数据包括查询权重、键权重和值权重;
对所述混合图像特征和所述初始深度数据进行第一拼接处理,获取第一拼接特征;
将所述第一拼接特征与所述查询权重的乘积确定为查询数据,其中,所述查询数据包括所述混合图像特征的查询数据和所述初始深度数据的查询数据;
将所述第一拼接特征与所述键权重的乘积确定为键数据;
将所述第一拼接特征与所述值权重的乘积确定为值数据;
根据所述初始深度数据的查询数据、所述键数据和所述值数据确定所述注意力计算数据。
可选地,所述对所述混合图像特征和所述初始深度数据进行第一拼接处理,获取第一拼接特征,包括:
对所述初始深度数据进行通道扩充处理,获得扩充深度数据,其中,所述扩充深度数据与所述混合图像特征的通道数相同;
对所述扩充深度数据进行展平处理,获得展平深度数据;
对所述混合图像特征进行展平处理,获得展平图像特征;
将所述展平深度数据和所述展平图像特征拼接在一起,以获得所述第一拼接特征。
可选地,所述根据所述目标图像特征数据和所述多阶图像特征生成深度概率图,包括:
对所述目标图像特征数据进行反展平处理,以获得目标最高阶图像特征;
分别对剩余图像特征和所述目标最高阶图像特征进行上采样处理,使得上采样后的剩余图像特征和目标最高阶图像特征的分辨率相同,其中,所述剩余图像特征为所述多阶图像特征中除所述最高阶图像特征外的图像特征;
对上采样后的剩余图像特征和目标最高阶图像特征进行第二拼接处理,获得第二拼接特征;
采用预设金字塔池化算法对所述第二拼接特征进行特征融合处理;
对特征融合处理后的第二拼接特征进行分类预测,确定所述概率,并根据所述概率生成所述深度概率图。
可选地,所述根据所述目标深度数据和所述深度概率图生成单目图像深度图,包括:
根据所述目标深度数据确定各所述子区间的中心值;
计算所述深度概率图中各像素点的各所述概率与对应子区间的中心值的乘积,获得乘积结果;
将同一像素点的乘积结果的和值确定为所述同一像素点的深度值;
根据各像素点的深度值生成所述单目图像深度图。
第二方面,本申请实施例提供一种单目图像深度图生成装置,所述单目图像深度图生成装置包括:
获取模块,用于获取单目图像和初始深度数据,其中,所述初始深度数据用于表征预设深度区间内各子区间的初始长度;
特征提取模块,用于对所述单目图像进行多阶特征提取,获取多阶图像特征;
确定模块,用于根据所述多阶图像特征和所述初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,所述目标深度数据用于表征所述预设深度区间内各子区间的目标长度;
第一生成模块,用于根据所述目标图像特征数据和所述多阶图像特征生成深度概率图,其中,所述深度概率图包括各像素点的深度属于各所述子区间的概率;
第二生成模块,用于根据所述目标深度数据和所述深度概率图生成单目图像深度图。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面实施例中任一项所述的单目图像深度图生成方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面实施例中任一项所述的单目图像深度图生成方法。
本申请提供的单目图像深度图生成方法、装置、设备及介质,单目图像深度图生成方法包括:获取单目图像和初始深度数据,其中,初始深度数据用于表征预设深度区间内各子区间的初始长度;对单目图像进行多阶特征提取,获取多阶图像特征;根据多阶图像特征和初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,目标深度数据用于表征预设深度区间内各子区间的目标长度;根据目标图像特征数据和多阶图像特征生成深度概率图,其中,深度概率图包括各像素点的深度属于各子区间的概率;根据目标深度数据和深度概率图生成单目图像深度图。通过上述方案,根据单目图像的多阶图像特征和初始深度数据确定目标深度数据和目标图像特征数据,并根据目标图像特征数据和多阶图像特征生成深度概率图,进而根据目标深度数据和深度概率图生成单目图像深度图,从而将单目图像深度图的生成看作目标深度数据和深度概率图的融合,在提高确定出的场景深度的准确率的同时,减少确定场景深度过程中的内存开销。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的单目图像深度图生成方法的场景示意图;
图2为本申请实施例提供的单目图像深度图生成方法的流程示意图;
图3为本申请实施例提供的单目图像深度图生成方法的预设卷积网络的结构示意图;
图4为本申请实施例提供的单目图像深度图生成方法的预设融合网络的结构示意图;
图5为本申请实施例提供的单目图像深度图生成方法的另一流程示意图;
图6为本申请实施例提供的单目图像深度图生成方法的又一流程示意图;
图7为本申请实施例提供的单目图像深度图生成装置的结构示意图;
图8为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。
在现有技术中,采用单目深度估计方法从视觉数据中确定场景深度,例如,基于几何先验知识来捕捉单张二维图像(也即单目图像)中的深度线索,进而推断出场景的三维结构,使得车辆能够感知三维世界,避免与道路上的其他物体发生碰撞。但是,现实场景复杂多变,采用基于几何先验知识的单目深度估计方法在实际应用过程中存在确定的场景深度的准确率较低的问题。
针对上述确定的场景深度的准确率较低的问题,发明人在研究中发现,为了解决该问题,可以根据单目图像的多阶图像特征和初始深度数据确定目标深度数据和目标图像特征数据,并根据目标图像特征数据和多阶图像特征生成深度概率图,进而根据目标深度数据和深度概率图生成单目图像深度图,从而将单目图像深度图的生成看作目标深度数据和深度概率图的融合,在提高确定出的场景深度的准确率的同时,减少确定场景深度过程中的内存开销。
下面对本申请实施例提供的单目图像深度图生成方法的应用场景进行介绍。本发明实施例提供的单目图像深度图生成方法可应用在机器人导航场景中、自动驾驶场景中或其他计算机视觉相关的场景中。
如图1所示,若应用在自动驾驶场景中,则可在车辆100前端搭载单目视觉传感器200(如单目相机),电子设备300可集成在车辆100内,如为车载终端,也可不集成在车辆100内,而是能够与车辆100进行通信,如为服务器。电子设备300与单目视觉传感器200进行通信,电子设备300首先获取单目视觉传感器200拍摄的某场景的单目图像,并随机初始化深度数据,获得初始深度数据,其中,初始深度数据用于表征预设深度区间内各子区间的初始长度;接着对单目图像进行多阶特征提取,获取多阶图像特征,并根据多阶图像特征和初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,目标深度数据用于表征预设深度区间内各子区间的目标长度,以及根据目标图像特征数据和多阶图像特征生成深度概率图,其中,深度概率图包括各像素点的深度属于各子区间的概率;最后根据目标深度数据和深度概率图生成单目图像深度图,并将单目图像深度图发给车辆100,使车辆100能够准确获知场景中的每个被测物体距离车辆100的距离,进而有效规避障碍物,顺利行驶。
可以理解的是,本发明实施例提供的场景深度的确定方法还可应用在其他场景中,具体应用方式与自动驾驶应用场景类似,在此不再一一赘述。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。可选地,如下实施例可以单独存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
图2为本申请实施例提供的单目图像深度图生成方法的流程示意图,如图2所示,本申请实施例提供的单目图像深度图生成方法包括:
S10:获取单目图像和初始深度数据,其中,初始深度数据用于表征预设深度区间内各子区间的初始长度。
在某些实施例中,控制单目视觉传感器(如单目相机)按照一定频率对周围环境进行拍摄,从而获得单目图像。单目图像可为二维RGB图像。
初始深度数据可为随机初始化得到的深度数据。
预设深度区间可包括最小深度值和最大深度值。不同场景下,预设深度区间的最小深度值和最大深度值可不同,预设深度区间的子区间的数量可相同,也可不同在此不作限定。
在某些实施例中,在获得单目图像之后,判断单目图像对应的当前场景,进而通过查询预先存储的场景、最小深度值、最大深度值和子区间数量的对应关系,确定当前场景对应的预设深度区间的当前最小深度值、当前最大深度值和当前子区间数量,进而随机初始化当前最小深度值至当前最大深度值范围内各子区间的初始长度,获得初始深度数据。
在某些实施例中,子区间数量固定为64,如此,既能够保证后续确定出的单目图像深度图的准确性,又能够保证单目图像深度图的生成效率。
S20:对单目图像进行多阶特征提取,获取多阶图像特征。
在某些实施例中,将单目图像输入预先训练好的预设特征提取网络,采用预设特征提取网络对单目图像进行多阶特征提取,以获得特征提取结果,并根据特征提取结果获得多阶图像特征。
可以理解的是,多阶图像特征中包括来着至少两个不同特征提取阶段的图像特征。
S30:根据多阶图像特征和初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,目标深度数据用于表征预设深度区间内各子区间的目标长度。
在某些实施例中,将多阶图像特征和初始深度数据输入预先训练好的预设注意力计算模型中,预设注意力计算模型计算初始深度数据的自我注意力,并同时计算初始深度数据与多阶图像特征的交叉注意力,从而高效地输出注意力计算数据。
可以理解的是,初始深度数据用于表征预设深度区间内各子区间的初始长度,也即初始深度数据属于离散化的特征。进一步地,由于预设特征提取网络在进行多阶特征提取时更加注重单目图像的纹理和形状信息,导致多阶图像特征难以获取单目图像的全局深度信息,而通过计算初始深度数据与多阶图像特征的交叉注意力(cross-attention),初始深度数据这种离散化的特征能够有效帮助多阶图像特征对单目图像的全局深度或全局几何信息进行理解,从而能够实现全局的空间信息集合和估计,获得融合全局信息的目标图像特征数据。
S40:根据目标图像特征数据和多阶图像特征生成深度概率图,其中,深度概率图包括各像素点的深度属于各子区间的概率。
示例性地,注意力计算数据中的目标图像特征数据能够表征多阶图像特征和初始深度数据的相关信息,因此,根据目标图像特征数据和多阶图像特征能够较准确地确定各像素点的深度属于各子区间的概率,从而生成深度概率图。
S50:根据目标深度数据和深度概率图生成单目图像深度图。
示例性地,注意力计算数据中的目标深度数据能够表征多阶图像特征和初始深度数据的相关数据,因此,在确定各像素点的深度属于各子区间的概率和预设深度区间内各子区间的目标长度之后,可根据预设深度区间内各子区间的目标长度和各像素点的深度属于各子区间的概率确定出各像素点的深度值,进而生成单目图像深度图。
本申请实施例的单目图像深度图生成方法,获取单目图像和初始深度数据,其中,初始深度数据用于表征预设深度区间内各子区间的初始长度;对单目图像进行多阶特征提取,获取多阶图像特征;根据多阶图像特征和初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,目标深度数据用于表征预设深度区间内各子区间的目标长度;根据目标图像特征数据和多阶图像特征生成深度概率图,其中,深度概率图包括各像素点的深度属于各子区间的概率;根据目标深度数据和深度概率图生成单目图像深度图。通过上述方案,根据单目图像的多阶图像特征和初始深度数据确定目标深度数据和目标图像特征数据,并根据目标图像特征数据和多阶图像特征生成深度概率图,进而根据目标深度数据和深度概率图生成单目图像深度图,从而将单目图像深度图的生成看作目标深度数据和深度概率图的融合,在提高确定出的场景深度的准确率的同时,减少确定场景深度过程中的内存开销。此外,由于单目图像能够通过单目视觉传感器获取,因此不需要配置双目视觉传感器或者激光雷达,成本更低,同时,根据单目图像确定场景深度不需要保证同一被测物体同时出现在两张单目图像中,工作范围更广。
可选地,步骤S20,包括:
S21:获取预设特征提取网络,其中,预设特征提取网络包括第一注意力层、第二注意力层、第三注意力层和第四注意力层。
S22:将单目图像输入第一注意力层,采用第一注意力层对单目图像进行特征提取操作,以获得第一注意力层的输出结果,并将第一注意力层的输出结果确定为第一图像特征。
S23:将第一图像特征输入第二注意力层,采用第二注意力层对第一图像特征进行特征提取操作,以获得第二注意力层的输出结果,并将第二注意力层的输出结果确定为第二图像特征。
S24:将第二图像特征输入第三注意力层,采用第三注意力层对第二图像特征进行特征提取操作,以获得第三注意力层的输出结果,并将第三注意力层的输出结果确定为第三图像特征。
S25:将第三像特征输入第四注意力层,采用第四注意力层对第三图像特征进行特征提取操作,以获得第四注意力层的输出结果,并将第四注意力层的输出结果确定为第四图像特征。
预设特征提取网络可为预先训练好的神经网路,采用预设特征提取网络能够对单目图像进行多阶特征提取,从而获得单目图像的多阶特征。
示例性地,预设特征提取网络为编码器中的Swin-Transformer骨干网络,将长为H、宽为W的单目图像输入Swin-Transformer骨干网络的第一注意力层,经过第一注意力层的特征提取操作,得到分辨率为、通道数为C1的第一图像特征;将第一图像特征输入Swin-Transformer骨干网络的第二注意力层,经过第二注意力层的特征提取操作,得到分辨率为/>、通道数为C2的第二图像特征;将第二图像特征输入Swin-Transformer骨干网络的第三注意力层,经过第三注意力层的特征提取操作,得到分辨率为、通道数为C3的第三图像特征;将第三图像特征输入Swin-Transformer骨干网络的第四注意力层,经过第四注意力层的特征提取操作,得到分辨率为/>、通道数为C4的第四图像特征。
可以理解的是,按照特征提取的先后顺序,第一图像特征至第四图像特征,特征的分辨率越来越小,特征越来越浓缩精炼,特征信息越来越多,冗余信息越来越少。
上述实施例的单目图像深度图生成方法,获取预设特征提取网络,其中,预设特征提取网络包括第一注意力层、第二注意力层、第三注意力层和第四注意力层;将单目图像输入第一注意力层,采用第一注意力层对单目图像进行特征提取操作,以获得第一注意力层的输出结果,并将第一注意力层的输出结果确定为第一图像特征;将第一图像特征输入第二注意力层,采用第二注意力层对第一图像特征进行特征提取操作,以获得第二注意力层的输出结果,并将第二注意力层的输出结果确定为第二图像特征;将第二图像特征输入第三注意力层,采用第三注意力层对第二图像特征进行特征提取操作,以获得第三注意力层的输出结果,并将第三注意力层的输出结果确定为第三图像特征;将第三像特征输入第四注意力层,采用第四注意力层对第三图像特征进行特征提取操作,以获得第四注意力层的输出结果,并将第四注意力层的输出结果确定为第四图像特征。如此,能够基于预设特征提取网络方便快捷地提取出单目图像的四个不同特征提取阶段的图像特征,方便后续根据单目图像的四个不同特征提取阶段的图像特征和初始深度数据确定注意力计算数据。
可选地,多阶图像特征包括最高阶图像特征和次高阶图像特征。
步骤S30,包括:
S31:根据最高阶图像特征和次高阶图像特征生成混合图像特征。
S32:根据混合图像特征和初始深度数据确定注意力计算数据。
具体地,首先确定出多阶图像特征中的最高阶图像特征和次高阶图像特征,然后将最高阶图像特征和次高阶图像特征进行融合,以生成融合了单目图像的全局信息和局部细节信息的混合图像特征,最后采用混合图像特征和初始深度数据计算交叉注意力和深度数据的自我注意力,从而生成注意力计算数据。
上述实施例的单目图像深度图生成方法,根据最高阶图像特征和次高阶图像特征生成混合图像特征;根据混合图像特征和初始深度数据确定注意力计算数据。可以理解的是,相较于多阶图像特征中的其他图像特征,最高阶图像特征和次高阶图像特征的特征信息更多、冗余信息更少,因此,采用根据最高阶图像特征和次高阶图像特征生成的混合图像特征确定注意力计算数据,能够在减少计算量的同时,保证计算结果的准确性,并且,在进行交叉注意力计算时,能够使得目标深度数据获得更多图像信息。
可选地,步骤S31,包括:
S311:将次高阶图像特征输入预设卷积网络,采用预设卷积网络对次高阶图像特征进行卷积操作,以获得预设卷积网络的输出结果。
示例性地,请结合图3,预设卷积网络包括两个1*1卷积层和一个3*3深度卷积层,在次高阶图像输入预设卷积网络之后,预设卷积网络依次对次高阶图像进行1*1卷积、3*3深度卷积和1*1卷积得到中间图像特征,然后将中间图像特征与次高阶图像特征相加,并经过激活函数的作用,进而获得预设卷积网络的输出结果。
S312:将预设卷积网络的输出结果和最高阶图像特征输入预设融合网络,采用预设融合网络对预设卷积网络的输出结果和最高阶图像特征进行拼接操作,并对拼接后的特征进行卷积操作,以获得预设融合网络的输出结果。
示例性地,请结合图4,预设融合网络包括拼接层、1*1卷积层和3*3卷积层,在预设卷积网络的输出结果和最高阶图像特征输入预设融合网络之后,预设融合网络首先对预设卷积网络的输出结果和最高阶图像特征进行拼接操作,然后依次对拼接后的特征进行1*1卷积和3*3卷积,进而获得预设融合网络的输出结果。
S313:将预设融合网络的输出结果确定为混合图像特征。
上述实施例的单目图像深度图生成方法,将次高阶图像特征输入预设卷积网络,采用预设卷积网络对次高阶图像特征进行卷积操作,以获得预设卷积网络的输出结果;将预设卷积网络的输出结果和最高阶图像特征输入预设融合网络,采用预设融合网络对预设卷积网络的输出结果和最高阶图像特征进行拼接操作,并对拼接后的特征进行卷积操作,以获得预设融合网络的输出结果;将预设融合网络的输出结果确定为混合图像特征。如此,通过预设卷积网络和预设融合网络的处理,能够获得融合了单目图像的全局信息和局部细节信息的混合图像特征,从而使得混合图像特征所包含的特征信息更加丰富,便于后续根据混合图像特征和初始深度数据确定出准确的注意力计算数据。
可选地,步骤S32,包括:
S321:获取预先存储的注意力权重数据,其中,注意力权重数据包括查询权重、键权重和值权重。
示例性地,注意力权重数据可为transformer模型的权重数据。在某些实施例中,预先构建由标注了深度值的单目图像和初始深度数据组成的训练集,并采用该训练集对transformer模型进行训练,等到训练结果达到收敛条件时,结束训练,将此时transformer模型的权重数据确定为注意力权重数据,从而能够保证后续根据注意力权重数据确定出的目标深度数据充分融合多阶图像特征和初始深度数据的相关信息,以及保证后续根据注意力权重数据确定出的目标图像特征数据充分融合多阶图像特征和初始深度数据的相关信息。
S322:对混合图像特征和初始深度数据进行第一拼接处理,获取第一拼接特征。
在某些实施方式中,混合图像特征和初始深度数据均为矩阵的形式,因此,基于矩阵将混合图像特征和初始深度数据拼接在一起,以获得第一拼接特征,第一拼接特征也可为矩阵的形式。
S323:将第一拼接特征与查询权重的乘积确定为查询数据,其中,查询数据包括混合图像特征的查询数据和初始深度数据的查询数据。
可以理解的是,第一拼接特征的矩阵中原本对应混合图像特征的部分行列数据在乘以查询权重后得到的数据仍然与混合图像特征相对应,第一拼接特征的矩阵中原本对应初始深度数据的部分行列数据在乘以查询权重后得到的数据仍然与初始深度数据相对应,因此在将第一拼接特征与查询权重的乘积确定为查询数据之后,可以根据第一拼接特征的矩阵中混合图像特征和初始深度数据的分隔位置,确定出查询数据中对应混合图像特征的查询数据和对应初始深度数据的查询数据。查询数据可为矩阵的形式。
S324:将第一拼接特征与键权重的乘积确定为键数据。
键数据可为矩阵的形式,将第一拼接特征的矩阵乘以键权重,可获得键数据的矩阵。
与查询数据类似,在将第一拼接特征与键权重的乘积确定为键数据之后,可以根据第一拼接特征的矩阵中混合图像特征和初始深度数据的分隔位置,确定出键数据中对应混合图像特征的键数据和对应初始深度数据的键数据。
S325:将第一拼接特征与值权重的乘积确定为值数据。
值数据可为矩阵的形式,将第一拼接特征的矩阵乘以值权重,可获得值数据的矩阵。
与查询数据类似,在将第一拼接特征与值权重的乘积确定为值数据之后,可以根据第一拼接特征的矩阵中混合图像特征和初始深度数据的分隔位置,确定出值数据中对应混合图像特征的值数据和对应初始深度数据的值数据。
S326:根据初始深度数据的查询数据、键数据和值数据确定注意力计算数据。
可选地,注意力计算数据通过以下公式(1)进行计算:
公式(1),
其中,L为注意力计算数据,为目标图像特征数据,B为目标深度数据,BQ为初始深度数据的查询数据,CK为键数据,CV为值数据,d为键数据的维度。
如此,在确定初始深度数据的查询数据、键数据和值数据之后,通过公式(1)能够快速计算出注意力计算数据。
注意力计算数据可为矩阵形式。可以理解的是,由于键数据和值数据的矩阵中均包括对应混合图像特征和初始深度数据的分隔位置,因此,基于键数据和值数据确定出的注意力计算数据的矩阵也包括相同的、对应混合图像特征和初始深度数据的分隔位置,进而在确定出注意力计算数据之后,可根据该分隔位置确定出注意力计算数据中的目标深度数据和目标图像特征数据。
上述实施例的单目图像深度图生成方法,获取预先存储的注意力权重数据,其中,注意力权重数据包括查询权重、键权重和值权重;对混合图像特征和初始深度数据进行第一拼接处理,获取第一拼接特征;将第一拼接特征与查询权重的乘积确定为查询数据,其中,查询数据包括混合图像特征的查询数据和初始深度数据的查询数据;将第一拼接特征与键权重的乘积确定为键数据;将第一拼接特征与值权重的乘积确定为值数据;根据初始深度数据的查询数据、键数据和值数据确定注意力计算数据。如此,注意力计算数据中的目标深度数据能够充分表达单目图像的整体深度信息,并且富有纹理形状细节信息,注意力计算数据中的目标图像特征数据能够携带深度信息,进而,在根据目标图像特征数据和多阶图像特征生成深度概率图之后,可将单目图像深度图的生成看作目标深度数据和深度概率图的融合,从而在减少生成单目图像深度图的过程中的内存开销的同时,保证单目图像深度图的分辨率和准确率。
可选地,步骤S322,包括:
S3221:对初始深度数据进行通道扩充处理,获得扩充深度数据,其中,扩充深度数据与混合图像特征的通道数相同。
请结合图5,通道扩充处理可包括以下步骤:保持初始深度数据的分辨率不变,将初始深度数据在通道方向A上重复若干次,直至扩充深度数据与混合图像特征的通道数相同为止。
S3222:对扩充深度数据进行展平处理,获得展平深度数据。
请继续结合图5,可采用预设展平函数将分辨率为h*w的二维的扩充深度数据展平为一维的展平深度数据。
示例性地,预设展平函数可设置为x.reshape(h*w,1)。
S3223:对混合图像特征进行展平处理,获得展平图像特征。
请继续结合图5,可采用预设展平函数将分辨率为H*W的二维的混合图像特征展平为一维的展平图像特征。
示例性地,预设展平函数可设置为x.reshape(H*W,1)。
S3224:将展平深度数据和展平图像特征拼接在一起,以获得第一拼接特征。
请继续结合图5,在维度方向F上,将同一通道的展平深度数据和展平图像特征拼接在一起,从而获得第一拼接特征。
上述实施例的单目图像深度图生成方法,对初始深度数据进行通道扩充处理,获得扩充深度数据,其中,扩充深度数据与混合图像特征的通道数相同;对扩充深度数据进行展平处理,获得展平深度数据;对混合图像特征进行展平处理,获得展平图像特征;将展平深度数据和展平图像特征拼接在一起,以获得第一拼接特征。如此,将不同尺度(分辨率*通道数)和类型的混合图像特征和初始深度数据转化为第一拼接特征,从而能够基于第一拼接特征将不同尺度和类型的特征输入transformer模型,方便确定注意力计算数据。可以理解的是,transformer模型无法同时处理不同类型或尺度的特征,如果仅根据初始深度数据进行序列到序列生成,那么得到的目标深度数据将缺乏局部性,无法较好地匹配单目图像。
可选地,步骤S40,包括:
S41:对目标图像特征数据进行反展平处理,以获得目标最高阶图像特征。
transformer模型的输入数据与输出数据格式相同,由于输入transformer模型的第一拼接特征是一维的,因此transformer模型输出的注意力计算数据中的目标图像特征数据也是一维的。
示例性地,可根据生成第一拼接特征时采用的预设展平函数确定反展平函数,进而采用反展平函数将目标图像特征数据还原成二维数据,并将该二维数据作为目标最高阶图像特征。
目标最高阶图像特征与单目图像的多阶图像特征中最高阶图像特征分辨率相同。由于目标图像特征数据能够表征最高阶图像特征和深度相关信息,而反展平处理改变的是数据格式未改变数据内容,因此,目标最高阶图像特征同样能够表征最高阶图像特征和深度相关信息。
S42:分别对剩余图像特征和目标最高阶图像特征进行上采样处理,使得上采样后的剩余图像特征和目标最高阶图像特征的分辨率相同,其中,剩余图像特征为多阶图像特征中除最高阶图像特征外的图像特征。
在某些实施例中,在分别对剩余图像特征和目标最高阶图像特征进行上采样处理之前,采用预先设置的残差单元分别对剩余图像特征和目标最高阶图像特征进行残差处理,以使得各图像特征更加平滑,方便后续处理。
示例性地,若多阶图像特征包括分辨率为、通道数为C1的第一图像特征E1、分辨率为/>、通道数为C2的第二图像特征E2、分辨率为/>、通道数为C3的第三图像特征E3和分辨率为/>、通道数为C4的第四图像特征,其中,第四图像特征为最高阶图像特征,则剩余图像特征为第一图像特征E1、第二图像特征E2和第三图像特征E3,且目标最高阶图像特征E4的分辨率为/>。请结合图6,首先,采用预先设置的残差单元分别对第一图像特征E1、第二图像特征E2、第三图像特征E3和目标最高阶图像特征E4进行残差处理,以使得各图像特征更加平滑;接着,对残差处理后的第一图像特征E1进行1倍上采样,对残差处理后的第二图像特征E2进行2倍上采样,对残差处理后的第三图像特征E3进行4倍上采样,对残差处理后的目标最高阶图像特征E4进行8倍上采样,从而使得上采样处理后的第一图像特征E1、第二图像特征E2、第三图像特征E3和目标最高阶图像特征E4的分辨率均为/>。如此,减小单目图像深度图生成过程中内存开销,轻量化单目图像深度图生成方法的框架结构。
可以理解的是,如果采用逐级上采样的方式对第一图像特征E1、第二图像特征E2和第三图像特征E3,且目标最高阶图像特征E4进行上采样,即首先将目标最高阶图像特征E4上采样2倍,使得上采样后目标最高阶图像特征E4与第三图像特征E3分辨率相同,并将上采样后目标最高阶图像特征E4与第三图像特征E3拼接在一起作为第一整体图像特征;其次,将第一整体图像特征上采样2倍,使得上采样后第一整体图像特征与第二图像特征E2分辨率相同,并将上采样后第一整体图像特征与第二图像特征E2拼接在一起作为第二整体图像特征;接着,将第二整体图像特征上采样2倍,使得上采样后第二整体图像特征与第一图像特征E1分辨率相同,并将上采样后第二整体图像特征与第一图像特征E1拼接在一起作为第三整体图像特征,这样会导致单目图像深度图生成方法需要采用过于臃肿的解码器模块,会导致单目图像深度图生成过程中内存开销较大,不利于轻量化单目图像深度图生成方法的框架结构。
S43:对上采样后的剩余图像特征和目标最高阶图像特征进行第二拼接处理,获得第二拼接特征。
请继续结合图6,可采用CONCAT拼接算法对上采样后的剩余图像特征和目标最高阶图像特征进行第二拼接处理,即保持分辨率不变、在通道方向上将相同分辨率的图像特征拼接在一起,从而获得分辨率为的第二拼接特征。其中,第二拼接特征的通道数为上采样后的剩余图像特征和目标最高阶图像特征的通道数之和。
S44:采用预设金字塔池化算法对第二拼接特征进行特征融合处理。
请继续结合图6,示例性地,可以基于金字塔池化模块(pyramid pooling module,简称为PPM)实现预设金字塔池化算法,进而采用预设金字塔池化算法对第二拼接特征进行特征融合处理,从而尽可能地保留单目图像在不同尺度上的细节信息,提高深度概率图和单目图像深度图的分辨率。
S45:对特征融合处理后的第二拼接特征进行分类预测,确定概率,并根据概率生成深度概率图。
在某些实施例中,特征融合处理后的第二拼接特征的通道数为多个,可对特征融合处理后的第二拼接特征进行1*1卷积操作,将特征融合处理后的第二拼接特征转化为预设通道数的第三拼接特征,其中,预设通道数与预设深度区间中子区间的数量相同。进而通过以下公式(2)计算各像素点的深度属于各子区间的概率:
公式(2),
其中,N为预设深度区间中子区间的数量(也为第三拼接特征的通道数),为第三拼接特征中第k个像素点的深度属于第i个子区间的概率,/>为第三拼接特征中第k个像素点在第i个通道上的分量,/>为第三拼接特征中第k个像素点全部通道上的分量之和,如此,通过上述公式(2)将同一像素点的深度属于各子区间的概率转换为范围在0到1之间、和为1的概率分布。
上述实施例的单目图像深度图生成方法,对目标图像特征数据进行反展平处理,以获得目标最高阶图像特征;分别对剩余图像特征和目标最高阶图像特征进行上采样处理,使得上采样后的剩余图像特征和目标最高阶图像特征的分辨率相同,其中,剩余图像特征为多阶图像特征中除最高阶图像特征外的图像特征;对上采样后的剩余图像特征和目标最高阶图像特征进行第二拼接处理,获得第二拼接特征;采用预设金字塔池化算法对第二拼接特征进行特征融合处理;对特征融合处理后的第二拼接特征进行分类预测,确定概率,并根据概率生成深度概率图。如此,通过分别对剩余图像特征和目标最高阶图像特征进行上采样处理,节省内存开销,并通过金字塔池化算法尽可能地保留单目图像在不同尺度上的细节信息,提高深度概率图和单目图像深度图的分辨率。
可选地,步骤S50,包括:
S51:根据目标深度数据确定各子区间的中心值。
目标深度数据用于表征预设深度区间内各子区间的目标长度,在根据目标深度数据确定预设深度区间内各子区间的目标长度之后,即可结合预设深度区间的最小深度值和最大深度值确定出预设深度区间内的多个子区间。
示例性地,各子区间的中心值可通过以下公式(3)进行计算:
公式(3),
其中,为第i个子区间的中心值,/>为预设深度区间的最小深度值,为第i个子区间的目标长度,/>为前i-1个子区间的目标长度的和值。
S52:计算深度概率图中各像素点的各概率与对应子区间的中心值的乘积,获得乘积结果。
S53:将同一像素点的乘积结果的和值确定为同一像素点的深度值。
示例性地,各像素点的深度值可通过以下公式(4)进行计算:
公式(4),
其中,为深度概率图中第k个像素点的深度值,N为预设深度区间中子区间的数量,/>为第i个子区间的中心值,/>为第k个像素点的深度属于第i个子区间的概率。
在一个例子中,预设深度区间中子区间的数量为4,第1个子区间的中心值为1,第2个子区间的中心值为3,第3个子区间的中心值为7,第4个子区间的中心值为9,深度概率图中某一像素点的深度属于第1个子区间的概率为0.2、属于第2个子区间的概率为0.1、属于第3个子区间的概率为0.4、属于第4个子区间的概率为0.3,则该像素点的深度值为d=1*0.2+3*0.1+7*0.4+9*0.3=6。
S54:根据各像素点的深度值生成单目图像深度图。
在计算出各像素点的深度值之后,即可根据各像素点的深度值生成单目图像深度图。
上述实施例的单目图像深度图生成方法,根据目标深度数据确定各子区间的中心值;计算深度概率图中各像素点的各概率与对应子区间的中心值的乘积,获得乘积结果;将同一像素点的乘积结果的和值确定为同一像素点的深度值;根据各像素点的深度值生成单目图像深度图。如此,基于像素点的深度属于子区间的概率和对应子区间的中心值准确地计算出像素点的深度值,提高了生成的单目图像深度图的准确率。
需要指出的是,上述所提到的具体数值只为了作为例子详细说明本申请的实施,而不应理解为对本申请的限制。在其他例子或实施方式或实施例中,可根据本申请来选择其他数值,在此不作具体限定。
图7为本申请实施例提供的单目图像深度图生成装置的结构示意图,如图7所示,本申请实施例提供的单目图像深度图生成装置包括获取模块401、特征提取模块402、确定模块403、第一生成模块404和第二生成模块405。
其中,获取模块401,用于获取单目图像和初始深度数据,其中,初始深度数据用于表征预设深度区间内各子区间的初始长度。特征提取模块402,用于对单目图像进行多阶特征提取,获取多阶图像特征。确定模块403,用于根据多阶图像特征和初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,目标深度数据用于表征预设深度区间内各子区间的目标长度。第一生成模块404,用于根据目标图像特征数据和多阶图像特征生成深度概率图,其中,深度概率图包括各像素点的深度属于各子区间的概率。第二生成模块405,用于根据目标深度数据和深度概率图生成单目图像深度图。
可选地,特征提取模块402,具体用于:
获取预设特征提取网络,其中,预设特征提取网络包括第一注意力层、第二注意力层、第三注意力层和第四注意力层;
将单目图像输入第一注意力层,采用第一注意力层对单目图像进行特征提取操作,以获得第一注意力层的输出结果,并将第一注意力层的输出结果确定为第一图像特征;
将第一图像特征输入第二注意力层,采用第二注意力层对第一图像特征进行特征提取操作,以获得第二注意力层的输出结果,并将第二注意力层的输出结果确定为第二图像特征;
将第二图像特征输入第三注意力层,采用第三注意力层对第二图像特征进行特征提取操作,以获得第三注意力层的输出结果,并将第三注意力层的输出结果确定为第三图像特征;
将第三像特征输入第四注意力层,采用第四注意力层对第三图像特征进行特征提取操作,以获得第四注意力层的输出结果,并将第四注意力层的输出结果确定为第四图像特征。
可选地,多阶图像特征包括最高阶图像特征和次高阶图像特征。
确定模块403,具体用于:
根据最高阶图像特征和次高阶图像特征生成混合图像特征;
根据混合图像特征和初始深度数据确定注意力计算数据。
可选地,确定模块403,具体用于:
将次高阶图像特征输入预设卷积网络,采用预设卷积网络对次高阶图像特征进行卷积操作,以获得预设卷积网络的输出结果;
将预设卷积网络的输出结果和最高阶图像特征输入预设融合网络,采用预设融合网络对预设卷积网络的输出结果和最高阶图像特征进行拼接操作,并对拼接后的特征进行卷积操作,以获得预设融合网络的输出结果;
将预设融合网络的输出结果确定为混合图像特征。
可选地,确定模块403,具体用于:
获取预先存储的注意力权重数据,其中,注意力权重数据包括查询权重、键权重和值权重;
对混合图像特征和初始深度数据进行第一拼接处理,获取第一拼接特征;
将第一拼接特征与查询权重的乘积确定为查询数据,其中,查询数据包括混合图像特征的查询数据和初始深度数据的查询数据;
将第一拼接特征与键权重的乘积确定为键数据;
将第一拼接特征与值权重的乘积确定为值数据;
根据初始深度数据的查询数据、键数据和值数据确定注意力计算数据。
可选地,确定模块403,具体用于:
对初始深度数据进行通道扩充处理,获得扩充深度数据,其中,扩充深度数据与混合图像特征的通道数相同;
对扩充深度数据进行展平处理,获得展平深度数据;
对混合图像特征进行展平处理,获得展平图像特征;
将展平深度数据和展平图像特征拼接在一起,以获得第一拼接特征。
可选地,注意力计算数据通过以下公式进行计算:
其中,L为注意力计算数据,为目标图像特征数据,B为目标深度数据,BQ为初始深度数据的查询数据,CK为键数据,CV为值数据,d为键数据的维度。
可选地,第一生成模块404,具体用于:
对目标图像特征数据进行反展平处理,以获得目标最高阶图像特征;
分别对剩余图像特征和目标最高阶图像特征进行上采样处理,使得上采样后的剩余图像特征和目标最高阶图像特征的分辨率相同,其中,剩余图像特征为多阶图像特征中除最高阶图像特征外的图像特征;
对上采样后的剩余图像特征和目标最高阶图像特征进行第二拼接处理,获得第二拼接特征;
采用预设金字塔池化算法对第二拼接特征进行特征融合处理;
对特征融合处理后的第二拼接特征进行分类预测,确定概率,并根据概率生成深度概率图。
可选地,第二生成模块405,具体用于:
根据目标深度数据确定各子区间的中心值;
计算深度概率图中各像素点的各概率与对应子区间的中心值的乘积,获得乘积结果;
将同一像素点的乘积结果的和值确定为同一像素点的深度值;
根据各像素点的深度值生成单目图像深度图。
本申请实施例提供的单目图像深度图生成装置400可以执行上述单目图像深度图生成方法实施例所示的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本申请实施例提供的电子设备的结构示意图,如图8所示,本申请实施例提供的电子设备500包括:处理器501,以及与处理器501通信连接的存储器502;存储器502存储计算机执行指令;处理器501执行存储器502存储的计算机执行指令,以实现上述任一项实施例的单目图像深度图生成方法。
例如,当处理器501执行存储器502存储的计算机执行指令时,实现如下单目图像深度图生成方法的步骤:
S10:获取单目图像和初始深度数据,其中,初始深度数据用于表征预设深度区间内各子区间的初始长度;
S20:对单目图像进行多阶特征提取,获取多阶图像特征;
S30:根据多阶图像特征和初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,目标深度数据用于表征预设深度区间内各子区间的目标长度;
S40:根据目标图像特征数据和多阶图像特征生成深度概率图,其中,深度概率图包括各像素点的深度属于各子区间的概率;
S50:根据目标深度数据和深度概率图生成单目图像深度图。
在图8对应的实施例中,程序可以包括程序代码,程序代码包括计算机执行指令。存储器502可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器502和处理器501通过总线连接。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent Interconnect,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,电子设备包括但不限于服务器、智能手机、车载终端、笔记本电脑、平板电脑、计算机、家用电器等。
本申请实施例提供的电子设备500可以执行上述单目图像深度图生成方法实施例所示的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一项实施例的单目图像深度图生成方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
进一步需要说明的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解,上述的装置实施例仅是示意性的,本申请的装置还可通过其它的方式实现。例如,上述实施例中单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
另外,若无特别说明,在本申请各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,处理器可以是任何适当的硬件处理器,比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明,存储单元可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(ResistiveRandom Access Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方 HMC(Hybrid Memory Cube)等等。
集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (10)

1.一种单目图像深度图生成方法,其特征在于,包括:
获取单目图像和初始深度数据,其中,所述初始深度数据用于表征预设深度区间内各子区间的初始长度;
对所述单目图像进行多阶特征提取,获取多阶图像特征;
根据所述多阶图像特征和所述初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,所述目标深度数据用于表征所述预设深度区间内各子区间的目标长度;
根据所述目标图像特征数据和所述多阶图像特征生成深度概率图,其中,所述深度概率图包括各像素点的深度属于各所述子区间的概率;
根据所述目标深度数据和所述深度概率图生成单目图像深度图。
2.根据权利要求1所述的方法,其特征在于,所述多阶图像特征包括最高阶图像特征和次高阶图像特征;
所述根据所述多阶图像特征和所述初始深度数据确定注意力计算数据,包括:
根据所述最高阶图像特征和所述次高阶图像特征生成混合图像特征;
根据所述混合图像特征和所述初始深度数据确定所述注意力计算数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述最高阶图像特征和所述次高阶图像特征生成混合图像特征,包括:
将所述次高阶图像特征输入预设卷积网络,采用所述预设卷积网络对所述次高阶图像特征进行卷积操作,以获得所述预设卷积网络的输出结果;
将所述预设卷积网络的输出结果和所述最高阶图像特征输入预设融合网络,采用所述预设融合网络对所述预设卷积网络的输出结果和所述最高阶图像特征进行拼接操作,并对拼接后的特征进行卷积操作,以获得所述预设融合网络的输出结果;
将所述预设融合网络的输出结果确定为所述混合图像特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述混合图像特征和所述初始深度数据确定所述注意力计算数据,包括:
获取预先存储的注意力权重数据,其中,所述注意力权重数据包括查询权重、键权重和值权重;
对所述混合图像特征和所述初始深度数据进行第一拼接处理,获取第一拼接特征;
将所述第一拼接特征与所述查询权重的乘积确定为查询数据,其中,所述查询数据包括所述混合图像特征的查询数据和所述初始深度数据的查询数据;
将所述第一拼接特征与所述键权重的乘积确定为键数据;
将所述第一拼接特征与所述值权重的乘积确定为值数据;
根据所述初始深度数据的查询数据、所述键数据和所述值数据确定所述注意力计算数据。
5.根据权利要求4所述的方法,其特征在于,所述对所述混合图像特征和所述初始深度数据进行第一拼接处理,获取第一拼接特征,包括:
对所述初始深度数据进行通道扩充处理,获得扩充深度数据,其中,所述扩充深度数据与所述混合图像特征的通道数相同;
对所述扩充深度数据进行展平处理,获得展平深度数据;
对所述混合图像特征进行展平处理,获得展平图像特征;
将所述展平深度数据和所述展平图像特征拼接在一起,以获得所述第一拼接特征。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像特征数据和所述多阶图像特征生成深度概率图,包括:
对所述目标图像特征数据进行反展平处理,以获得目标最高阶图像特征;
分别对剩余图像特征和所述目标最高阶图像特征进行上采样处理,使得上采样后的剩余图像特征和目标最高阶图像特征的分辨率相同,其中,所述剩余图像特征为所述多阶图像特征中除所述最高阶图像特征外的图像特征;
对上采样后的剩余图像特征和目标最高阶图像特征进行第二拼接处理,获得第二拼接特征;
采用预设金字塔池化算法对所述第二拼接特征进行特征融合处理;
对特征融合处理后的第二拼接特征进行分类预测,确定所述概率,并根据所述概率生成所述深度概率图。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标深度数据和所述深度概率图生成单目图像深度图,包括:
根据所述目标深度数据确定各所述子区间的中心值;
计算所述深度概率图中各像素点的各所述概率与对应子区间的中心值的乘积,获得乘积结果;
将同一像素点的乘积结果的和值确定为所述同一像素点的深度值;
根据各像素点的深度值生成所述单目图像深度图。
8.一种单目图像深度图生成装置,其特征在于,包括:
获取模块,用于获取单目图像和初始深度数据,其中,所述初始深度数据用于表征预设深度区间内各子区间的初始长度;
特征提取模块,用于对所述单目图像进行多阶特征提取,获取多阶图像特征;
确定模块,用于根据所述多阶图像特征和所述初始深度数据确定注意力计算数据,其中,注意力计算数据包括目标深度数据和目标图像特征数据,所述目标深度数据用于表征所述预设深度区间内各子区间的目标长度;
第一生成模块,用于根据所述目标图像特征数据和所述多阶图像特征生成深度概率图,其中,所述深度概率图包括各像素点的深度属于各所述子区间的概率;
第二生成模块,用于根据所述目标深度数据和所述深度概率图生成单目图像深度图。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-7中任一项所述的单目图像深度图生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的单目图像深度图生成方法。
CN202310609281.XA 2023-05-29 2023-05-29 单目图像深度图生成方法、装置、设备及介质 Active CN116883479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310609281.XA CN116883479B (zh) 2023-05-29 2023-05-29 单目图像深度图生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310609281.XA CN116883479B (zh) 2023-05-29 2023-05-29 单目图像深度图生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116883479A true CN116883479A (zh) 2023-10-13
CN116883479B CN116883479B (zh) 2023-11-28

Family

ID=88265033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310609281.XA Active CN116883479B (zh) 2023-05-29 2023-05-29 单目图像深度图生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116883479B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130156294A1 (en) * 2011-12-15 2013-06-20 Sony Corporation Depth map generation based on soft classification
CN110135500A (zh) * 2019-05-17 2019-08-16 南京大学 一种基于自适应深度特征滤波器的多场景下目标跟踪方法
CN111340864A (zh) * 2020-02-26 2020-06-26 浙江大华技术股份有限公司 基于单目估计的三维场景融合方法及装置
US20210150747A1 (en) * 2019-11-14 2021-05-20 Samsung Electronics Co., Ltd. Depth image generation method and device
KR20210058683A (ko) * 2019-11-14 2021-05-24 삼성전자주식회사 깊이 맵 생성 방법 및 장치
CN113222033A (zh) * 2021-05-19 2021-08-06 北京数研科技发展有限公司 基于多分类回归模型与自注意力机制的单目图像估计方法
CN113409331A (zh) * 2021-06-08 2021-09-17 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、终端及可读存储介质
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113870334A (zh) * 2021-09-29 2021-12-31 北京百度网讯科技有限公司 深度检测方法、装置、设备以及存储介质
CN114004874A (zh) * 2021-12-30 2022-02-01 贝壳技术有限公司 占用栅格地图的获取方法和装置
CN114511778A (zh) * 2022-01-19 2022-05-17 美的集团(上海)有限公司 图像处理方法及装置
CN114638870A (zh) * 2022-03-15 2022-06-17 云南师范大学 一种基于深度学习的室内场景单目图像深度估计方法
US20220230338A1 (en) * 2020-02-26 2022-07-21 Tencent Technology (Shenzhen) Company Ltd Depth image generation method, apparatus, and storage medium and electronic device
US20220277580A1 (en) * 2019-11-20 2022-09-01 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Hand posture estimation method and apparatus, and computer storage medium
CN115359191A (zh) * 2022-09-13 2022-11-18 重庆理工大学 一种基于深度学习的物体三维重建系统
CN115588038A (zh) * 2022-10-19 2023-01-10 沈阳工业大学 一种多视角深度估计方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130156294A1 (en) * 2011-12-15 2013-06-20 Sony Corporation Depth map generation based on soft classification
CN110135500A (zh) * 2019-05-17 2019-08-16 南京大学 一种基于自适应深度特征滤波器的多场景下目标跟踪方法
US20210150747A1 (en) * 2019-11-14 2021-05-20 Samsung Electronics Co., Ltd. Depth image generation method and device
KR20210058683A (ko) * 2019-11-14 2021-05-24 삼성전자주식회사 깊이 맵 생성 방법 및 장치
US20220277580A1 (en) * 2019-11-20 2022-09-01 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Hand posture estimation method and apparatus, and computer storage medium
US20220230338A1 (en) * 2020-02-26 2022-07-21 Tencent Technology (Shenzhen) Company Ltd Depth image generation method, apparatus, and storage medium and electronic device
CN111340864A (zh) * 2020-02-26 2020-06-26 浙江大华技术股份有限公司 基于单目估计的三维场景融合方法及装置
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113222033A (zh) * 2021-05-19 2021-08-06 北京数研科技发展有限公司 基于多分类回归模型与自注意力机制的单目图像估计方法
CN113409331A (zh) * 2021-06-08 2021-09-17 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、终端及可读存储介质
CN113870334A (zh) * 2021-09-29 2021-12-31 北京百度网讯科技有限公司 深度检测方法、装置、设备以及存储介质
US20220351398A1 (en) * 2021-09-29 2022-11-03 Beijing Baidu Netcom Science Technology Co., Ltd. Depth detection method, method for training depth estimation branch network, electronic device, and storage medium
CN114004874A (zh) * 2021-12-30 2022-02-01 贝壳技术有限公司 占用栅格地图的获取方法和装置
CN114511778A (zh) * 2022-01-19 2022-05-17 美的集团(上海)有限公司 图像处理方法及装置
CN114638870A (zh) * 2022-03-15 2022-06-17 云南师范大学 一种基于深度学习的室内场景单目图像深度估计方法
CN115359191A (zh) * 2022-09-13 2022-11-18 重庆理工大学 一种基于深度学习的物体三维重建系统
CN115588038A (zh) * 2022-10-19 2023-01-10 沈阳工业大学 一种多视角深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
叶华;谭冠政;: "单幅图像的深度标签流形学习", 红外与激光工程, no. 06 *
王泉德;张松涛;: "基于多尺度特征融合的单目图像深度估计", 华中科技大学学报(自然科学版), no. 05 *
黄军;王聪;刘越;毕天腾;: "单目深度估计技术进展综述", 中国图象图形学报, no. 12 *

Also Published As

Publication number Publication date
CN116883479B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
Jaritz et al. Sparse and dense data with cnns: Depth completion and semantic segmentation
Wang et al. Fusing bird’s eye view lidar point cloud and front view camera image for 3d object detection
US11348270B2 (en) Method for stereo matching using end-to-end convolutional neural network
CN112581517B (zh) 双目立体匹配装置及方法
CN113759338B (zh) 一种目标检测方法、装置、电子设备及存储介质
CN114638836B (zh) 基于高度有效驱动与多层级特征融合的城市街景分割方法
JP2024507727A (ja) 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング
Fan et al. Semantic segmentation with global encoding and dilated decoder in street scenes
CN113762267A (zh) 一种基于语义关联的多尺度双目立体匹配方法及装置
CN116097307A (zh) 图像的处理方法及相关设备
CN115937819A (zh) 基于多模态融合的三维目标检测方法及系统
CN116883479B (zh) 单目图像深度图生成方法、装置、设备及介质
CN115909255B (zh) 图像生成、图像分割方法、装置、设备、车载终端及介质
CN115063789B (zh) 基于关键点匹配的3d目标检测方法及装置
CN111862321A (zh) 视差图的获取方法、装置、系统及存储介质
CN114494433A (zh) 图像处理方法、装置、设备和计算机可读存储介质
Duerr et al. Decoupled iterative deep sensor fusion for 3D semantic segmentation
CN116051489A (zh) 鸟瞰图视角特征图处理方法、装置、电子设备及存储介质
CN116758301B (zh) 一种图像处理方法以及相关设备
US20230401733A1 (en) Method for training autoencoder, electronic device, and storage medium
CN115908879B (zh) 基于点引导注意力机制的自适应局部图像特征匹配方法
CN116758131B (zh) 一种单目图像深度估计方法、装置和计算机设备
CN117173104B (zh) 一种低空无人机图像变化检测方法及系统
US20240169668A1 (en) Computer-implemented method for creating a three-dimensional virtual model of an environment of a motor vehicle
CN118052844A (zh) 一种基于全局信息提取和Transformer模型的行人轨迹预测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant