CN115330851A - 单目深度估计方法、装置、电子设备、存储介质及车辆 - Google Patents

单目深度估计方法、装置、电子设备、存储介质及车辆 Download PDF

Info

Publication number
CN115330851A
CN115330851A CN202210937447.6A CN202210937447A CN115330851A CN 115330851 A CN115330851 A CN 115330851A CN 202210937447 A CN202210937447 A CN 202210937447A CN 115330851 A CN115330851 A CN 115330851A
Authority
CN
China
Prior art keywords
feature map
feature
maps
map
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210937447.6A
Other languages
English (en)
Inventor
叶晓青
杨威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210937447.6A priority Critical patent/CN115330851A/zh
Publication of CN115330851A publication Critical patent/CN115330851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本公开提供了一种单目深度估计方法、装置、电子设备、存储介质及车辆,涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习等技术领域,可应用于3D视觉、智能交通等场景。具体实现方案为:从单目图像采集装置采集的图像中,提取多个分辨率的特征图;对多个分辨率的特征图进行融合处理,得到多个待处理特征图;对多个待处理特征图进行加权处理,得到目标特征图;基于目标特征图进行深度估计,得到图像的深度图。基于多个分辨率的特征图能够从图像中提取出不同层次的尺度不变特征。对不同分辨率的特征图进行融合,得到增强的尺度不变特征。增强的尺度不变特征不受物体在图像中的尺寸影响,使得该方法能够适用不同相机。

Description

单目深度估计方法、装置、电子设备、存储介质及车辆
技术领域
本公开涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习等技术领域,可应用于3D视觉、智能交通等场景。
背景技术
在自动驾驶以及增强现实等任务中,物体相对于相机的位置估计是必不可少的一个环节,而深度估计则是其中的关键技术。单目相机由于体积小、功耗低以及便携性强等特点,基于单目相机的深度估计广泛应用在各种场合中。
随着移动互联网的普及,带有各式各样摄像头的便携式设备越来越多,但是不同的摄像头拥有着不同的焦距和感光器件,同一个场景使用两个不同的相机进行拍摄,或者同一个相机使用不同的焦距进行拍摄,物体在图像上的尺寸会完全不同。尺寸不同导致同一深度估计方法对不同相机拍摄图像的输出差距较大。因此不同的相机需要对深度估计方法进行适配。
发明内容
本公开提供了一种单目深度估计方法、装置、电子设备及存储介质。
根据本公开的第一方面,提供了一种单目深度估计方法,包括:
从单目图像采集装置采集的图像中,提取多个分辨率的特征图;
对多个分辨率的特征图进行融合处理,得到多个待处理特征图;
对多个待处理特征图进行加权处理,得到目标特征图;
基于目标特征图进行深度估计,得到图像的深度图。
根据本公开的第二方面,提供了一种单目深度估计装置,包括:
特征提取模块,用于从单目图像采集装置采集的图像中,提取多个分辨率的特征图;
融合模块,用于对多个分辨率的特征图进行融合处理,得到多个待处理特征图;
加权模块,用于对多个待处理特征图进行加权处理,得到目标特征图;
估计模块,用于基于目标特征图进行深度估计,得到图像的深度图。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述第一方面的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行前述第一方面的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述第一方面的方法。
根据本公开的第六方面,提供了一种车辆,包括第三方面的电子设备。
本实施例提供的方案,基于多个分辨率的特征图能够从图像中提取出不同层次的尺度不变特征。对不同分辨率的特征图进行融合,实现对不同层次的尺度不变特征的融合,进而通过对多个待处理特征图的加权处理,使得目标特征图中能够融合图像中各层次的尺度不变特征,得到增强的尺度不变特征。在使用目标特征图进行深度估计时,相对于基于图像尺寸进行深度估计,尺度不变特征不受物体在图像中的尺寸影响,由此本公开实施例提供的单目深度估计方法能够适用不同相机。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开一实施例的单目深度估计方法的流程示意图;
图2是本公开另一实施例的单目深度估计方法的另一流程示意图;
图3是本公开一实施例的单目深度估计方法中的模型结构示意图之一;
图4是本公开一实施例的单目深度估计方法中的模型结构示意图之二;
图5是本公开另一实施例的单目深度估计方法的另一流程示意图;
图6是本公开另一实施例的单目深度估计方法的另一流程示意图;
图7是本公开另一实施例的单目深度估计方法的另一流程示意图;
图8是本公开一实施例的单目深度估计方法中的模型框架示意图;
图9是根据本公开一实施例的单目深度估计装置的一种组成结构示意图;
图10是根据本公开另一实施例的单目深度估计装置的另一种组成结构示意图;
图11是用来实现本公开实施例的单目深度估计方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开的说明书实施例和权利要求书的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
鉴于相关技术中不同的单目相机需要对深度估计方法进行适配的问题,根据本公开实施例的第一方面提供一种单目深度估计方法。该方法中提出了基于尺度不变特征进行深度估计,来克服物体在图像中尺寸不同(即尺度变化特征)带来的问题,使得深度估计方法无需对不同相机进行适配。
如图1所示为该方法的流程示意图,包括以下步骤:
S101,从单目图像采集装置采集的图像中,提取多个分辨率的特征图。
S102,对多个分辨率的特征图进行融合处理,得到多个待处理特征图。
S103,对多个待处理特征图进行加权处理,得到目标特征图。
S104,基于目标特征图进行深度估计,得到图像的深度图。
本公开实施例中,基于多个分辨率的特征图能够从图像中提取出不同层次的尺度不变特征。对不同分辨率的特征图进行融合,实现对不同层次的尺度不变特征的融合,进而通过对多个待处理特征图的加权处理,使得目标特征图中能够融合图像中各层次的尺度不变特征,得到增强的尺度不变特征。在使用目标特征图进行深度估计时,相对于仅基于图像尺寸进行深度估计,尺度不变特征不受物体在图像中的尺寸影响,由此本公开实施例提供的单目深度估计方法能够适用不同相机。
该尺度不变特征,例如不同物体之间的距离特征、相对尺寸等特征。通过本公开实施例的处理,能够对尺度不变特征进行增强,得到目标特征图,由此使得深度估计不必过度依赖物体在图像中的尺寸特征。
在一些实施例中,可基于特征提取网络提取不同分辨率的特征图。该特征提取网络中可包括编码器和解码器。使用的多个分辨率的特征图可以是编码器提取出的多个分辨率的特征图。由于解码器是对编码器提取的特征进一步深化处理,能够得到更高层次的特征,故此本公开实施例也可以采用解码器输出的多个分辨率的特征图。该特征提取网络例如是Unet网络或Transformer网络(多头注意力机制网络)等。当然,基于编码器和解码器架构的神经网络均适用于本公开实施例。
在一些实施例中,为了能够得到优质的待处理特征图,本公开实施例中步骤S102中对多个分辨率的特征图进行融合处理,得到多个待处理特征图,可实施为如图2所示的步骤:
S201,从多个分辨率的特征图中,选取目标分辨率的特征图为基准特征图,从目标分辨率之外的特征图中选取第一特征图。
S202,基于注意力机制,将第一特征图与基准特征图进行融合,得到第一特征图对应的融合特征图。
S203,将融合特征图和基准特征图作为待处理特征图。
本公开实施例中,基于注意力机制将不同分辨率的特征图进行融合,能够将不同层次的尺度不变特征进行融合,保留深度估计所需的重要尺度不变特征。基于基准特征图和第一特征图进行融合,实现第一特征图对基准特征图进行引导融合,将第一特征图的关键尺度不变特征信息引导到基准特征图中,得到融合特征图,从而有利于增强尺度不变特征进行深度估计。
在一些实施例中,可从多个分辨率的特征图中选取低分辨率的特征图作为基准特征图,从而实现将高层次尺度不变特征图中的关键特征引导值低分辨率特征图中。
为了能够更好的保留全局的尺度不变特征,本公开实施例中优先选取高分辨率的特征图作为基准特征图。一种可能的实施方式中,选取分辨率最高的特征图作为基准特征图。这样,能够基于低分辨率的特征图对高分辨率的特征图进行引导融合,引导尺度不变特征融合到高分辨率的尺度不变特征中,得到具有增强尺度不变特征的融合特征图。
在一些实施方式中,如图3所示,可选取一个第一特征图对基准特征图进行引导融合,得到一个融合特征图。之后,对融合特征图和基准特征图进行加权处理,得到目标特征图。深度估计时对目标特征图进行估计,得到图像的深度图。
在另一些实施例中,为了能够将尺度不变特征更好的进行增强,保留在目标特征图中,如图4所示,可选取多个第一特征图。每个第一特征图对基准特征图进行基于注意力机制的引导融合,得到多个融合特征图,然后对多个融合特征图和基准特征图进行加权处理得到目标特征图。之后,基于目标特征图进行深度估计,得到深度图。该实施例中,基于多个第一特征图对基准特征图进行引导融合,能够使得目标特征图中保留更多的尺度不变特征,便于准确地进行深度估计。
在选取出多个第一特征图的情况下,对每个第一特征图分别执行以下操作,得到第一特征图对应的融合特征图的操作可如图5所示,包括以下步骤:
S501,基于注意力机制,从第一特征图中提取出多种第一子特征图;以及,对基准特征图依序进行特征提取和采样至第一子特征图的分辨率,得到第二子特征图。
其中,得到第二子特征图和多种第一子特征图的执行顺序不受限,均适用于本公开实施例。
实施时,可以通过结构不同的第一子特征提取网络从第一特征图中提取出多种第一子特征图。
为了简化网络结构,实现轻量化的子特征提取,本公开实施例中的第一子特征提取网络结构可以相同,但不同第一子特征提取网络不共享网络参数,也即不同第一子特征提取网络的参数单独训练不共享模型参数,以便于提取出不同尺度不变特征的第一子特征图。例如,可采用多个卷积层分别对第一特征图进行卷积操作,每个卷积层的权重不共享,由此可提取出不同的第一子特征图。用于提取第一子特征图的卷积层也可以为1*1卷积层。
类似的,第二子特征图也可以采用第二子特征提取网络进行特征提取,为了实现轻量化的网络结构,本公开实施例中第二子特征提取网络可实现为卷积层和采样层。例如,采用一个或多个卷积层对基准特征图进行特征提取,提取出卷积特征。经过采样层对卷积特征进行采样处理,使得采样层输出的第二子特征图的分辨率与第一子特征图的分辨率相同。该卷积层可采用1*1卷积层,以便于提取出基准特征图中的关键信息到卷积特征中。卷积特征的分辨率与基准特征图相同,当基准特征图的分辨率低于第一子特征图时,对卷积特征进行上采样,当基准特征图的分辨率高于第一子特征图时进行下采样。
在得到多种第一子特征图和第二子特征图后,可在S502中,将多种第一子特征图进行融合,得到第三子特征图。并在S503中,将第三子特征图和第二子特征图进行融合,得到第四子特征图。
S504,将第四子特征图采样至目标分辨率,得到第一特征图对应的融合特征图。
本公开实施例中,基于注意力机制从第一特征图中挖掘出多种第一子特征图,能够实现从第一特征图中挖掘出不同的尺度不变特征,然后将不同的尺度不变特征进行融合得到第二子特征图,使得第二子特征图中包含了关键的尺度不变特征。通过从基准特征图中提取出第三子特征图,能够得到更高层次的适于深度估计的尺度不变特征到第三子特征图中。通过将第三子特征和第第二子特征图进一步融合,能够得到增强的尺度不变特征到第四子特征图中,然后通过采样处理恢复第四子特征图的尺寸至基准特征图的尺寸,便于后续进行加权处理,得到目标特征。
在另一些实施例中,还可以基于注意力机制得到不同的权重系数,完成第一特征图和基准特征图的融合。例如在选取出多个第一特征图的情况下,对每个第一特征图分别执行如图6所示的操作,得到第一特征图对应的融合特征图:
S601,基于注意力机制,确定基准特征图和第一特征图的权重,以及将第一特征图采样至与基准特征图的分辨率相同,得到第一特征图对应的中间特征图。
其中,可基于注意力网络对第一特征图和基准特征图进行分析处理,得到各个特征图的权重系数。
S602,基于确定的权重对中间特征图和基准特征图进行加权处理,得到第一特征图对应的融合特征图。
本公开实施例中,基于注意力网络能够发掘关键的尺度不变特征,以便于融合时参考不同特征图融合尺度不变特征,得到增强的尺度不变特征。
至此,融合特征图和基准特征图均作为待处理特征图,用于得到具有增强的尺度不变特征的目标特征图。下面对如何得到目标特征图进行说明。如图7所示,包括以下步骤:
S701,从多个分辨率的特征图中选取出第二特征图。
S702,基于第二特征图确定多个待处理特征图各自的融合权重。
S703,基于融合权重,对多个融合特征进行加权处理,得到目标特征图。
本公开实施例中,采用第二特征图确定融合权重,能够有效利用第二特征图中的全局特征,确定多个待处理特征中哪个特征图的全局尺度不变特征较为重要,从而得到适用于深度估计的目标特征图。
实施时,可以选取任一分辨率的特征图作为第二特征图。为了能够更好的关注尺度不变特征,本公开实施例中,第二特征图可以是分辨率最低的特征图。由于分辨率最低的特征包括了较为低层次的全局尺度不变特征,基于分辨率最低的特征确定融合权重时,确定的融合权重能够更好的增强尺度不变特征,以便于进行深度估计。
为便于系统性理解本公开实施例提供的单目深度估计方法,下面结合网络模型结构,对该方法进行说明。如图8所示,为根据本公开一实施例提供的网络模型结构示意图,图8中包括:
特征提取网络801,用于基于编码器和解码器从单目相机采集的图像中提取出多个分辨率的特征图。如图8中所示,示出了选择解码器提取的5个分辨率的特征图,按照分辨率从高到低的顺序依序为F0,F1,F2,F3和F4。需要说明的是,5个分辨率的特征图仅是用于示例性说明本公开实施例,并不对本公开实施例提取的特征图数量进行限制。
引导注意力特征融合网络802,用于将最高分辨率的特征图F0,F1,F2,F3和F4作为基准特征图,分别以F1,F2,F3为第一特征图,对基准特征图F0进行引导融合得到融合特征图。假设F2,F1,F2,F3和F4的大小分别为(C0,H0,W0),(C1,H1,W1),(C2,H2,W2),(C3,H3,W3)和(C4,H4,W4)。对F1,F2,F3而言,均如图8所示,分别对F0使用1×1卷积和降采样使其特征的大小变换为
Figure BDA0003784155440000081
(C1,H1,W1),
Figure BDA0003784155440000082
(C2,H2,W2)和
Figure BDA0003784155440000083
(C3,H3,W3)。以F1引导F0为例说明。首先使用两个不同的1×1卷积对F1进行处理并将特征维度从3维变为2维得到
Figure BDA0003784155440000084
(C1,H1×W1)和
Figure BDA0003784155440000085
(C1,H1×W1),由此得到两种第一子特征图。再使用
Figure BDA0003784155440000086
的转置F1 T:(H1×W1,C1)与
Figure BDA0003784155440000087
相乘并使用softmax(归一化层)得到第三子特征图
Figure BDA0003784155440000088
(H1×W1,H1×W1)。之后使用第二子特征图
Figure BDA0003784155440000089
与第三子特征图
Figure BDA00037841554400000810
相乘得到第四子特征图
Figure BDA00037841554400000811
(C1,H1×W1)。使用相类似的方法可以得到由F2引导F0得到的特征图
Figure BDA00037841554400000812
(C2,H2×W2),以及由F3引导F0得到的特征图
Figure BDA00037841554400000813
(C3,H3×W3),对这些引导后得到的不同特征图分别使用不同的1×1卷积和上采样得到多个融合特征图
Figure BDA00037841554400000814
Figure BDA00037841554400000815
这些融合特征图的大小与F0(C0,H0,W0)的大小相同。上述引导融合过程充分利用了全局信息,每个位置的特征都来自于整个特征图的融合,实现了对尺度不变特征的增强。
此时,得到四个大小完全相同的高分辨率的待处理特征,包括F0
Figure BDA00037841554400000816
Figure BDA00037841554400000817
Figure BDA00037841554400000818
接着,如图8所示,采用动态融合网络803进行动态融合得到目标特征图。如图8所示,动态融合网络803,使用解码器输出的最低分辨率的特征F4(即第二特征图)对这四个待处理特征进行动态融合。动态融合的实现如图8所示,对第二特征图F4进行全局池化然后对全局池化结果使用输出通道为4的1×1卷积以及softmax归一化得到大小为(4,1,1)的特征
Figure BDA0003784155440000091
(其中包括各待处理特征的融合权重)。之后再使用
Figure BDA0003784155440000092
中的四个融合权重(a0,a1,a2,a3)对高分辨率的待处理特征进行加权处理得到
Figure BDA0003784155440000093
Figure BDA0003784155440000094
Figure BDA0003784155440000095
最终得到使用动态注意力特征融合的全局尺度不变特征的增强特征
Figure BDA0003784155440000096
(即目标特征),并使用该目标特征用于后续的单目深度估计。
需要说明的是,在动态融合网络803中,
Figure BDA0003784155440000097
的大小取决于待处理特征图的数量,即待处理特征图数量为m,则
Figure BDA0003784155440000098
包括m个融合权重。
基于相同的技术构思,本公开实施例,还提供一种单目深度估计装置,如图9所示,包括:
特征提取模块901,用于从单目图像采集装置采集的图像中,提取多个分辨率的特征图;
融合模块902,用于对多个分辨率的特征图进行融合处理,得到多个待处理特征图;
加权模块903,用于对多个待处理特征图进行加权处理,得到目标特征图;
估计模块904,用于基于目标特征图进行深度估计,得到图像的深度图。
在一些实施例中,在图9的基础上,如图10所示,融合模块902,包括:
第一选取单元1001,用于从多个分辨率的特征图中,选取目标分辨率的特征图为基准特征图,从目标分辨率之外的特征图中选取第一特征图;
融合单元1002,用于基于注意力机制,将第一特征图与基准特征图进行融合,得到第一特征图对应的融合特征图;
确定单元1003,用于将融合特征图和基准特征图作为待处理特征图。
在一些实施例中,融合单元1002,用于:
在选取出多个第一特征图的情况下,对每个第一特征图分别执行以下操作,得到第一特征图对应的融合特征图:
基于注意力机制,从第一特征图中提取出多种第一子特征图;以及,对基准特征图依序进行特征提取和采样至第一子特征图的分辨率,得到第二子特征图;
将多种第一子特征图进行融合,得到第三子特征图;
将第三子特征图和第二子特征图进行融合,得到第四子特征图;
将第四子特征图采样至目标分辨率,得到第一特征图对应的融合特征图。
在一些实施例中,融合单元1002,用于:
在选取出多个第一特征图的情况下,对每个第一特征图分别执行以下操作,得到第一特征图对应的融合特征图:
基于注意力机制,确定基准特征图和第一特征图的权重,以及将第一特征图采样至与基准特征图的分辨率相同,得到第一特征图对应的中间特征图;
基于确定的权重对中间特征图和基准特征图进行加权处理,得到第一特征图对应的融合特征图。
在一些实施例中,第一选取单元1001,用于从多个分辨率的特征图中、选取分辨率最高的特征图作为基准特征图。
在一些实施例中,如图10所示,加权模块903,包括:
第二选取单元1004,用于从多个分辨率的特征图中选取出第二特征图;
权重确定单元1005,用于基于第二特征图确定多个待处理特征图各自的融合权重;
加权单元1006,用于基于融合权重,对多个融合特征进行加权处理,得到目标特征图。
在一些实施例中,第二选取单元1004,用于从多个分辨率的特征图中、选取分辨率最低的特征图作为第二特征图。
本公开实施例中,各模块或单元的具体实施方式和有益效果如前文所阐述内容,这里不再赘述。
根据本公开的另一实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。本公开实施例还提供了一种车辆,包括该电子设备。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的单目深度估计方法。在一些实施例中,单目深度估计方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行单目深度估计方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行单目深度估计方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (18)

1.一种单目深度估计方法,包括:
从单目图像采集装置采集的图像中,提取多个分辨率的特征图;
对所述多个分辨率的特征图进行融合处理,得到多个待处理特征图;
对所述多个待处理特征图进行加权处理,得到目标特征图;
基于所述目标特征图进行深度估计,得到所述图像的深度图。
2.根据权利要求1所述的方法,所述对所述多个分辨率的特征图进行融合处理,得到多个待处理特征图,包括:
从所述多个分辨率的特征图中,选取目标分辨率的特征图为基准特征图,从所述目标分辨率之外的特征图中选取第一特征图;
基于注意力机制,将所述第一特征图与所述基准特征图进行融合,得到所述第一特征图对应的融合特征图;
将所述融合特征图和所述基准特征图作为所述待处理特征图。
3.根据权利要求2所述的方法,所述基于注意力机制,将所述第一特征图与所述基准特征图进行融合,得到所述第一特征图对应的融合特征图,包括:
在选取出多个所述第一特征图的情况下,对每个所述第一特征图分别执行以下操作,得到所述第一特征图对应的融合特征图:
基于注意力机制,从所述第一特征图中提取出多种第一子特征图;以及,对所述基准特征图依序进行特征提取和采样至所述第一子特征图的分辨率,得到第二子特征图;
将所述多种第一子特征图进行融合,得到第三子特征图;
将所述第三子特征图和所述第二子特征图进行融合,得到第四子特征图;
将所述第四子特征图采样至所述目标分辨率,得到所述第一特征图对应的融合特征图。
4.根据权利要求2所述的方法,所述基于注意力机制,将所述第一特征图与所述基准特征图进行融合,得到所述第一特征图对应的融合特征图,包括:
在选取出多个所述第一特征图的情况下,对每个所述第一特征图分别执行以下操作,得到所述第一特征图对应的融合特征图:
基于注意力机制,确定所述基准特征图和所述第一特征图的权重,以及将所述第一特征图采样至与所述基准特征图的分辨率相同,得到所述第一特征图对应的中间特征图;
基于确定的所述权重对所述中间特征图和所述基准特征图进行加权处理,得到所述第一特征图对应的融合特征图。
5.根据权利要求2所述的方法,所述从所述多个分辨率的特征图中,选取目标分辨率的特征图为基准特征图,包括:
从所述多个分辨率的特征图中、选取分辨率最高的特征图作为所述基准特征图。
6.根据权利要求1-5中任一项所述的方法,所述对所述多个待处理特征图进行加权处理,得到目标特征图,包括:
从所述多个分辨率的特征图中选取出第二特征图;
基于所述第二特征图确定所述多个待处理特征图各自的融合权重;
基于所述融合权重,对所述多个融合特征进行加权处理,得到所述目标特征图。
7.根据权利要求6所述的方法,所述从所述多个分辨率的特征图中选取出第二特征图,包括:
从所述多个分辨率的特征图中、选取分辨率最低的特征图作为所述第二特征图。
8.一种单目深度估计装置,包括:
特征提取模块,用于从单目图像采集装置采集的图像中,提取多个分辨率的特征图;
融合模块,用于对所述多个分辨率的特征图进行融合处理,得到多个待处理特征图;
加权模块,用于对所述多个待处理特征图进行加权处理,得到目标特征图;
估计模块,用于基于所述目标特征图进行深度估计,得到所述图像的深度图。
9.根据权利要求8所述的装置,所述融合模块,包括:
第一选取单元,用于从所述多个分辨率的特征图中,选取目标分辨率的特征图为基准特征图,从所述目标分辨率之外的特征图中选取第一特征图;
融合单元,用于基于注意力机制,将所述第一特征图与所述基准特征图进行融合,得到所述第一特征图对应的融合特征图;
确定单元,用于将所述融合特征图和所述基准特征图作为所述待处理特征图。
10.根据权利要求9所述的装置,所述融合单元,用于:
在选取出多个所述第一特征图的情况下,对每个所述第一特征图分别执行以下操作,得到所述第一特征图对应的融合特征图:
基于注意力机制,从所述第一特征图中提取出多种第一子特征图;以及,对所述基准特征图依序进行特征提取和采样至所述第一子特征图的分辨率,得到第二子特征图;
将所述多种第一子特征图进行融合,得到第三子特征图;
将所述第三子特征图和所述第二子特征图进行融合,得到第四子特征图;
将所述第四子特征图采样至所述目标分辨率,得到所述第一特征图对应的融合特征图。
11.根据权利要求9所述的装置,所述融合单元,用于:
在选取出多个所述第一特征图的情况下,对每个所述第一特征图分别执行以下操作,得到所述第一特征图对应的融合特征图:
基于注意力机制,确定所述基准特征图和所述第一特征图的权重,以及将所述第一特征图采样至与所述基准特征图的分辨率相同,得到所述第一特征图对应的中间特征图;
基于确定的所述权重对所述中间特征图和所述基准特征图进行加权处理,得到所述第一特征图对应的融合特征图。
12.根据权利要求9所述的装置,所述第一选取单元,用于从所述多个分辨率的特征图中、选取分辨率最高的特征图作为所述基准特征图。
13.根据权利要求8-12中任一项所述的装置,所述加权模块,包括:
第二选取单元,用于从所述多个分辨率的特征图中选取出第二特征图;
权重确定单元,用于基于所述第二特征图确定所述多个待处理特征图各自的融合权重;
加权单元,用于基于所述融合权重,对所述多个融合特征进行加权处理,得到所述目标特征图。
14.根据权利要求13所述的装置,所述第二选取单元,用于从所述多个分辨率的特征图中、选取分辨率最低的特征图作为所述第二特征图。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的方法。
18.一种车辆,包括如权利要求15所述的电子设备。
CN202210937447.6A 2022-08-05 2022-08-05 单目深度估计方法、装置、电子设备、存储介质及车辆 Pending CN115330851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210937447.6A CN115330851A (zh) 2022-08-05 2022-08-05 单目深度估计方法、装置、电子设备、存储介质及车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210937447.6A CN115330851A (zh) 2022-08-05 2022-08-05 单目深度估计方法、装置、电子设备、存储介质及车辆

Publications (1)

Publication Number Publication Date
CN115330851A true CN115330851A (zh) 2022-11-11

Family

ID=83921603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210937447.6A Pending CN115330851A (zh) 2022-08-05 2022-08-05 单目深度估计方法、装置、电子设备、存储介质及车辆

Country Status (1)

Country Link
CN (1) CN115330851A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168067A (zh) * 2022-12-21 2023-05-26 东华大学 基于深度学习的有监督多模态光场深度估计方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168067A (zh) * 2022-12-21 2023-05-26 东华大学 基于深度学习的有监督多模态光场深度估计方法
CN116168067B (zh) * 2022-12-21 2023-11-21 东华大学 基于深度学习的有监督多模态光场深度估计方法

Similar Documents

Publication Publication Date Title
KR102292559B1 (ko) 단안 이미지 깊이 추정 방법 및 장치, 기기, 프로그램 및 저장 매체
US11321593B2 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
JP7032536B2 (ja) インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体
CN113920307A (zh) 模型的训练方法、装置、设备、存储介质及图像检测方法
CN111739005B (zh) 图像检测方法、装置、电子设备及存储介质
CN113674421B (zh) 3d目标检测方法、模型训练方法、相关装置及电子设备
CN114186632B (zh) 关键点检测模型的训练方法、装置、设备、存储介质
CN111753961A (zh) 模型训练方法和装置、预测方法和装置
CN115409855B (zh) 图像处理方法、装置、电子设备和存储介质
KR20220153667A (ko) 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
US20230102804A1 (en) Method of rectifying text image, training method, electronic device, and medium
CN113378712A (zh) 物体检测模型的训练方法、图像检测方法及其装置
CN116188893A (zh) 基于bev的图像检测模型训练及目标检测方法和装置
CN115330851A (zh) 单目深度估计方法、装置、电子设备、存储介质及车辆
CN113932796A (zh) 高精地图车道线生成方法、装置和电子设备
CN114332509B (zh) 图像处理方法、模型训练方法、电子设备及自动驾驶车辆
CN115861755A (zh) 特征融合方法、装置、电子设备及自动驾驶车辆
CN114282664A (zh) 自反馈模型训练方法、装置、路侧设备及云控平台
CN115731273A (zh) 位姿图优化方法及装置、电子设备和存储介质
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN114972465A (zh) 图像目标深度的检测方法、装置、电子设备和存储介质
CN113869147A (zh) 目标检测方法及装置
CN113554550A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN115049895B (zh) 一种图像属性识别方法、属性识别模型训练方法及装置
CN113658277B (zh) 立体匹配方法、模型训练方法、相关装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination