CN115578436A - 一种基于多级特征并行交互融合的单目深度预测方法 - Google Patents

一种基于多级特征并行交互融合的单目深度预测方法 Download PDF

Info

Publication number
CN115578436A
CN115578436A CN202211252277.4A CN202211252277A CN115578436A CN 115578436 A CN115578436 A CN 115578436A CN 202211252277 A CN202211252277 A CN 202211252277A CN 115578436 A CN115578436 A CN 115578436A
Authority
CN
China
Prior art keywords
information
depth
fusion
transformer
resnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211252277.4A
Other languages
English (en)
Inventor
夏晨星
段秀真
梁兴柱
王列伟
孙延光
段松松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202211252277.4A priority Critical patent/CN115578436A/zh
Publication of CN115578436A publication Critical patent/CN115578436A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于多级特征并行交互融合的单目深度预测方法,尝试提出一种CNN与Transformer层级交互融合的方式,使用SwinTransformer和CNN不同分辨率特征图进行融合,以获得更好的编码器,获取更丰富的全局和局部特征信息,达到提取密集特征的效果。使用分层ResNet和SwinTransformer作为编码器,分别提取局部相邻信息特征与全局长范围上下文信息,通过层级ResNet网络与Transformer的融合,在编码器阶段获得丰富的局部与全局信息,避免因为重复的下采样而丢失过多的特征信息。此外,本发明构建了一个新的融合模块(FFM),在层级特征提取阶段,更好的促进卷积神经网络输出与Transformer输出高效融合,进一步获得密集的深度信息,得到高质量的深度图,用于三维重建、自动驾驶、智能机器人等领域。

Description

一种基于多级特征并行交互融合的单目深度预测方法
技术领域:
本发明涉及图像处理领域,具体来说,涉及了一种基于多级特征并行交互融合的单目深度预测方法。
背景技术:
本部分的陈述仅仅是涉及到了与本发明相关的背景技术,并不必然构成现有技术。
深度预测是从一个或多个图像中预测场景的深度信息,是计算机视觉领域经典问题之一,这些深度信息有助于许多计算机视觉任务,如同步定位和映射、自动驾驶、三维重建、目标检测等领域。深度预测任务可以由专用硬件完成,如微软的测距仪和Kinect摄像头,但价格昂贵、场景有限,大多数图像都是由普通相机拍摄的,只含场景的颜色信息。为了重建深度信息,研究人员尝试直接从RGB图像中预测深度,这种方法与通过专业硬件设备获得深度信息相比,更具有普遍性。然而从RGB图像中预测深度是一个不适定的问题,缺乏线索、尺度模糊、半透明或反射材料都会导致模糊的情况,即外观不能推断空间结构。随着深度学习的快速发展,CNN已经成为从单一的RGB输入中提供合理的深度图的主流方法的关键组成部分。自Transformer出现以来,它在各个领域得到了相当广泛的关注。
近期,由于Transformer采用了一种具有多层感知器(MLP)的自注意机制,克服了以往RNN对自然语言处理无法并行、训练效率低的局限性,许多研究人员试图将Transformer引入计算机视觉领域,取得了一定成果,然而Transformer更关注全局上下文信息忽略了局部信息,CNN更注重对局部信息的提取。随后,研究人员将Transformer与CNN结合,取得了不错的效果,推动了单目深度预测的发展,目前Transformer与CNN的结合都是基于编码器解码器(encoder-decoder)结构,大多方法将Transformer与CNN串行结合,将Transformer作为encoder提取和传递全局上下文信息,然而很少方法将Transformer与CNN独立并行结合,充分发挥CNN与Transformer的优势,充分利用二者的互补性。现有方法同时准确恢复大规模几何(墙壁)和局部细节(边界和小目标)仍然具有挑战性,正是这种在不同尺度区域的不准确推断促使充分利用分层场景结构进行深度预测。
发明内容:
为解决上述问题,本发明提出一种基于多级特征并行交互融合的单目深度预测方法,尝试提出一种CNN与Transformer层级交互融合的方式,使用SwinTransformer和CNN不同分辨率特征图进行融合,以获得更好的编码器,获取更丰富的全局和局部特征信息,达到提取密集特征的效果。使用分层ResNet和SwinTransformer作为编码器,分别提取局部相邻信息特征与全局长范围上下文信息,通过层级ResNet网络与Transformer的融合,在编码器阶段获得丰富的局部与全局信息,避免因为重复的下采样而丢失过多的特征信息。此外,本发明构建了一个新的融合模块,在层级特征提取阶段,更好的促进卷积神经网络输出与Transformer输出高效融合,进一步获得密集的深度信息,得到高质量的深度图,用于三维重建、自动驾驶、智能机器人等领域。
1.一种基于多级特征并行交互融合的单目深度预测方法,其特征在于,该方法包括以下步骤:
1)收集公共RGB数据集,并对数据进行增强,使用网络的预训练权值,并初始化编码器。
2)采用ResNet获取多级局部特征,使用Swin Transformer获取全局上下文特征。
3)构建并行多级交互融合模块FFM,将局部与全局信息充分融合,生成高质量密集深度信息。
4)为了计算预测输出深度与地面真实深度图之间的距离,使用尺度不变损失Scale-Invariant loss(SI)来训练模型。
2.权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:所述步骤1)具体方法是:
2.1)收集主流公共数据集有NYU Depth v2数据集和KITTI数据集,NYU Depth v2主要是针对室内场景,范围0-10m,KITTI数据集主要针对室外场景,多用于自动驾驶领域,范围在0-80m。
2.2)采用CutDepth进行数据增强,在不增加额外计算成本的情况下加速模型训练性能,用地面真深度图替换部分输入图像,为输入图像提供多样性,使网络能够聚焦于高频区域,在CutDepth中,随机选择切割区域的坐标(l、u)和大小(w、h)。
2.3)使用MiT-b4预训练权重初始化编码器,避免从零开始训练效果差且特征效果提取不明显的问题,建立耗时更短、更精确的模型。
3.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:步骤2)具体方法是:
3.1)CNN与Transformer之间有独特性与互补性,为了充分利用二者之间的优势,提出层级交互融合的网络。
3.2)在编码器阶段,为了获取丰富的全局上下文特征和局部特征,使用Transformer与CNN并行结构作为编码器,首先将图像尺寸裁剪成320*320大小,首先用编码器SwinTransformer分支与ResNet分支分别获取分辨率为[1/4,1/8,1/16,1/32]的特征图,通道数分别为[64,128,256,512],SwinTransformer分支的块大小为4,通道数为3,深度为[2,2,6,2],多头注意力数为[4,8,16,32],窗口大小为10,其四个阶段的特征分别为[ft1,ft2,ft3,ft4]。
3.3)对应ResNet分支四个阶段[fr1,fr2,fr3,fr4],然后通过所提出的融合模块FFM,结合Swin Transformer与ResNet不同层级与分辨率的特征,得到[F1,F2,F3,F4]通道数由512变为64,最后通过上采样与卷积操作恢复原始分辨率用于密集预测。
4.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:步骤3)具体方法是:
4.1)构建并行多级交互融合模块FFM,将局部与全局信息充分融合,生成高质量密集深度信息。
4.2)具体来说,获得Transformer中向量间的位置关系,得到特征,Transformer模型计算了空间中所有块间的相关性,ResNet建立了局部空间中的信息连接,Transformer建立了更好的上下文语义信息,ResNet则有更强的局部信息,为了更好的集成二者的优势,本发明设计了FFM模块来增强彼此特征的表达。具体过程表示如下:
Ft=multi(xt,Conv(up(Sigmoid(xt)))) (1)
其中xt表示Transformer分支特征信息,up表示上采样操作,Sigmoid表示激活函数,Conv表示3×3大小的卷积操作,multi表示像素级乘法,通过进一步对Transformer分支特征进行处理,得到Ft
4.3)用类似的方处理ResNet分支特征信息,其中Softmax表示激活函数,GAP表示全局平均池化,进一步对空间特征进行压缩,将全局空间信息压缩到通道描述符的同时,也降低了网络参数,可以达到防止过拟合的作用,此时得到ResNet进一步处理的特征Fr
Fr=multi(xres,GAP(Conv(Softmax(xres))) (2)
Fmid=BRC(Concat(Ft,up(Fr))) (3)
BRC表示预激活模块,典型的卷积块由Conv、BN与ReLu组成,在最后一步丢弃了整流线性单元激活的非线性性质的大部分负值,本发明采用预激活卷积块来缓解这个问题,得到中间融合特征Fmid
Fi=BRC(Concat(up(Conv(Ft)),Fmid,up(Conv(Fr)))) (4)
最终通过像素级相加操作,结合Ft、Fr与Fmid,再次通过预激活模块优化特征,得到输出Fi(其中i取值1,..4),表示每一个阶段的融合的特征。通过有无融合模块的对比图可知,无融合模块只能捕捉像汽车、栏杆这样的大目标,生成的深度图边界较为模糊,而对于电线杆、路牌这样的小目标只能很少获取甚至无法获取。对于有融合的模块,不仅能捕捉到大物体的形状大小特征信息,还能对于像电线杆这样的小目标细节有着很好的把控。
5.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:步骤4)具体方法是:
为了计算预测输出深度与地面真实深度图之间的距离,本发明使用尺度不变损失Scale-Invariant loss(SI)来训练模型。
Figure BDA0003888125000000061
这里
Figure BDA0003888125000000062
其中地面真实深度为di,预测深度为
Figure BDA0003888125000000063
α=10,λ=0.85。
本发明的优势:本发明使用CNN与Transformer作为编码器,通过并行层级融合来完成单目深度预测任务,为了能够达到更好的效果,本发明引入了一个新的并行交互架构,此外,本发明设计一个高效的层级融合模块FFM,帮助完成对Transformer全局特征与CNN局部特征的有效融合。
附图说明
图1多级特征交互相融的单目深度预测方法流程图
图2与其他现有方法的对比图
图3模型整体架构图
图4 FFM层级融合模块细节图
图5与当前性能较好方法的定性比较图
具体实施方式
下面结合本发明中实例附图,对本发明实例中技术方案进行清楚、完整的描述,此外,所叙述的实施例仅仅是本发明一部分实施例,而不是所有的实施例。基于本发明中的实施例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,以及本发明所收集、分类、人工标注数据集都属于本发明保护范围。
本发明的流程框架如图1所示,一种基于多级特征并行交互融合的单目深度预测方法,具体操作如下:
1.收集公共RGB数据集,并对数据进行增强,使用网络的预训练权值,并初始化编码器。
1.1收集主流公共数据集有NYU Depth v2数据集和KITTI数据集,NYU Depth v2主要是针对室内场景,范围0-10m,KITTI数据集主要针对室外场景,多用于自动驾驶领域,范围在0-80m。
1.2采用CutDepth进行数据增强,在不增加额外计算成本的情况下加速模型训练性能,用地面真深度图替换部分输入图像,为输入图像提供多样性,使网络能够聚焦于高频区域,在CutDepth中,随机选择切割区域的坐标(l、u)和大小(w、h)。
1.3使用MiT-b4预训练权重初始化编码器,避免从零开始训练效果差且特征效果提取不明显的问题,建立耗时更短、更精确的模型。
2.采用ResNet获取多级局部特征,使用Swin Transformer获取全局上下文特征,模型整体结构如图2所示。
具体步骤如下:
2.1CNN与Transformer之间有独特性与互补性,为了充分利用二者之间的优势,与其他方法不同的是,本发明提出层级交互融合的网络,如图1所示。
2.2在编码器阶段,为了获取丰富的全局上下文特征和局部特征,使用Transformer与CNN并行结构作为编码器,首先将图像尺寸裁剪成320*320大小,首先用编码器Swin Transformer分支与ResNet分支分别获取分辨率为[1/4,1/8,1/16,1/32]的特征图,通道数分别为[64,128,256,512],SwinTransformer分支的块大小为4,通道数为3,深度为[2,2,6,2],多头注意力数为[4,8,16,32],窗口大小为10,其四个阶段的特征分别为[ft1,ft2,ft3,ft4]。
2.3对应ResNet分支四个阶段[fr1,fr2,fr3,fr4],然后通过所提出的融合模块FFM,结合Swin Transformer与ResNet不同层级与分辨率的特征,得到[]通道数由512变为64,最后通过上采样与卷积操作恢复原始分辨率用于密集预测,具体模型架构如图3所示。
3.构建并行多级交互融合模块FFM,将局部与全局信息充分融合,生成高质量密集深度信息,高效融合FFM模块如图4所示。
具体步骤如下:
3.1获得Transformer中向量间的位置关系,得到特征,Transformer模型计算了空间中所有块间的相关性,ResNet建立了局部空间中的信息连接,Transformer建立了更好的上下文语义信息,ResNet则有更强的局部信息,为了更好的集成二者的优势,本发明设计了FFM模块来增强彼此特征的表达。具体过程表示如下:
Ft=multi(xt,Conv(up(Sigmoid(xt)))) (1)
其中xt表示Transformer分支特征信息,up表示上采样操作,Sigmoid表示激活函数,Conv表示3×3大小的卷积操作,multi表示像素级乘法,通过进一步对Transformer分支特征进行处理,得到Ft
3.2用类似的方处理ResNet分支特征信息,其中Softmax表示激活函数,GAP表示全局平均池化,进一步对空间特征进行压缩,将全局空间信息压缩到通道描述符的同时,也降低了网络参数,可以达到防止过拟合的作用,此时得到ResNet进一步处理的特征Fr
Fr=multi(xres,GAP(Conv(Softmax(xres))) (2)
Fmid=BRC(Concat(Ft,up(Fr))) (3)
BRC表示预激活模块,典型的卷积块由Conv、BN与ReLu组成,在最后一步丢弃了整流线性单元激活的非线性性质的大部分负值,本发明采用预激活卷积块来缓解这个问题,得到中间融合特征Fmid
Fi=BRC(Concat(up(Conv(Ft)),Fmid,up(Conv(Fr)))) (4)
最终通过像素级相加操作,结合Ft、Fr与Fmid,再次通过预激活模块优化特征,得到输出Fi(其中i取值1,..4),表示每一个阶段的融合的特征。通过有无融合模块的对比图可知,无融合模块只能捕捉像汽车、栏杆这样的大目标,生成的深度图边界较为模糊,而对于电线杆、路牌这样的小目标只能很少获取甚至无法获取。对于有融合的模块,不仅能捕捉到大物体的形状大小特征信息,还能对于像电线杆这样的小目标细节有着很好的把控。
4.使用损失函数优化网络,得到更准确的深度图。
具体步骤如下:
为了计算预测输出深度与地面真实深度图之间的距离,本发明使用尺度不变损失Scale-Invariant loss(SI)来训练模型。
Figure BDA0003888125000000101
这里
Figure BDA0003888125000000102
其中地面真实深度为di,预测深度为
Figure BDA0003888125000000103
α=10,λ=0.85。
5.为了展示我们提出的一种基于多级特征并行交互融合的单目深度预测方法的高效性,如图5所示,我们展示了网络预测的深度图,前三列是当前较好方法显示的深度图,第四列是我们显示的深度图,第五列是真实的RGB图。
以上所述为本申请优选实施而以,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围内。

Claims (5)

1.一种基于多级特征并行交互融合的单目深度预测方法,其特征在于,该方法包括以下步骤:
1)收集公共RGB数据集,并对数据进行增强,使用网络的预训练权值,并初始化编码器。
2)采用ResNet获取多级局部特征,使用Swin Transformer获取全局上下文特征。
3)构建并行多级交互融合模块FFM,将局部与全局信息充分融合,生成高质量密集深度信息。
4)为了计算预测输出深度与地面真实深度图之间的距离,使用尺度不变损失Scale-Invariant loss(SI)来训练模型。
2.权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:所述步骤1)具体方法是:
2.1)收集主流公共数据集有NYU Depth v2数据集和KITTI数据集,NYU Depth v2主要是针对室内场景,范围0-10m,KITTI数据集主要针对室外场景,多用于自动驾驶领域,范围在0-80m。
2.2)采用CutDepth进行数据增强,在不增加额外计算成本的情况下加速模型训练性能,用地面真深度图替换部分输入图像,为输入图像提供多样性,使网络能够聚焦于高频区域,在CutDepth中,随机选择切割区域的坐标(l、u)和大小(w、h)。
2.3)使用MiT-b4预训练权重初始化编码器,避免从零开始训练效果差且特征效果提取不明显的问题,建立耗时更短、更精确的模型。
3.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:步骤2)具体方法是:
3.1)CNN与Transformer之间有独特性与互补性,为了充分利用二者之间的优势,提出层级交互融合的网络。
3.2)在编码器阶段,为了获取丰富的全局上下文特征和局部特征,使用Transformer与CNN并行结构作为编码器,首先将图像尺寸裁剪成320*320大小,首先用编码器SwinTransformer分支与ResNet分支分别获取分辨率为[1/4,1/8,1/16,1/32]的特征图,通道数分别为[64,128,256,512],SwinTransformer分支的块大小为4,通道数为3,深度为[2,2,6,2],多头注意力数为[4,8,16,32],窗口大小为10,其四个阶段的特征分别为[ft1,ft2,ft3,ft4]。
3.3)对应ResNet分支四个阶段[fr1,fr2,fr3,fr4],然后通过所提出的融合模块FFM,结合Swin Transformer与ResNet不同层级与分辨率的特征,得到[F1,F2,F3,F4]通道数由512变为64,最后通过上采样与卷积操作恢复原始分辨率用于密集预测。
4.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:步骤3)具体方法是:
4.1)构建并行多级交互融合模块FFM,将局部与全局信息充分融合,生成高质量密集深度信息。
4.2)具体来说,获得Transformer中向量间的位置关系,得到特征,Transformer模型计算了空间中所有块间的相关性,ResNet建立了局部空间中的信息连接,Transformer建立了更好的上下文语义信息,ResNet则有更强的局部信息,为了更好的集成二者的优势,本发明设计了FFM模块来增强彼此特征的表达。具体过程表示如下:
Ft=multi(xt,Conv(up(Sigmoid(xt)))) (1)
其中xt表示Transformer分支特征信息,up表示上采样操作,Sigmoid表示激活函数,Conv表示3×3大小的卷积操作,multi表示像素级乘法,通过进一步对Transformer分支特征进行处理,得到Ft
4.3)用类似的方处理ResNet分支特征信息,其中Softmax表示激活函数,GAP表示全局平均池化,进一步对空间特征进行压缩,将全局空间信息压缩到通道描述符的同时,也降低了网络参数,可以达到防止过拟合的作用,此时得到ResNet进一步处理的特征Fr
Fr=multi(xres,GAP(Conv(Softmax(xres))) (2)
Fmid=BRC(Concat(Ft,up(Fr))) (3)
BRC表示预激活模块,典型的卷积块由Conv、BN与ReLu组成,在最后一步丢弃了整流线性单元激活的非线性性质的大部分负值,本发明采用预激活卷积块来缓解这个问题,得到中间融合特征Fmid
Fi=BRC(Concat(up(Conv(Ft)),Fmid,up(Conv(Fr)))) (4)
最终通过像素级相加操作,结合Ft、Fr与Fmid,再次通过预激活模块优化特征,得到输出Fi(其中i取值1,..4),表示每一个阶段的融合的特征。通过有无融合模块的对比图可知,无融合模块只能捕捉像汽车、栏杆这样的大目标,生成的深度图边界较为模糊,而对于电线杆、路牌这样的小目标只能很少获取甚至无法获取。对于有融合的模块,不仅能捕捉到大物体的形状大小特征信息,还能对于像电线杆这样的小目标细节有着很好的把控。
5.根据权利要求1所述的一种基于多级特征并行交互融合的单目深度预测方法,其特征在于:步骤4)具体方法是:
为了计算预测输出深度与地面真实深度图之间的距离,本发明使用尺度不变损失Scale-Invariant loss(SI)来训练模型。
Figure FDA0003888124990000041
这里
Figure FDA0003888124990000042
其中地面真实深度为di,预测深度为
Figure FDA0003888124990000043
α=10,λ=0.85。
CN202211252277.4A 2022-10-13 2022-10-13 一种基于多级特征并行交互融合的单目深度预测方法 Pending CN115578436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211252277.4A CN115578436A (zh) 2022-10-13 2022-10-13 一种基于多级特征并行交互融合的单目深度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211252277.4A CN115578436A (zh) 2022-10-13 2022-10-13 一种基于多级特征并行交互融合的单目深度预测方法

Publications (1)

Publication Number Publication Date
CN115578436A true CN115578436A (zh) 2023-01-06

Family

ID=84585858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211252277.4A Pending CN115578436A (zh) 2022-10-13 2022-10-13 一种基于多级特征并行交互融合的单目深度预测方法

Country Status (1)

Country Link
CN (1) CN115578436A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117268345A (zh) * 2023-11-20 2023-12-22 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117268345A (zh) * 2023-11-20 2023-12-22 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备
CN117268345B (zh) * 2023-11-20 2024-03-29 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN111582316B (zh) 一种rgb-d显著性目标检测方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN108985269B (zh) 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型
JP7166388B2 (ja) ナンバープレート認識方法、ナンバープレート認識モデルの訓練方法及び装置
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN111915619A (zh) 一种双特征提取与融合的全卷积网络语义分割方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN114638836B (zh) 基于高度有效驱动与多层级特征融合的城市街景分割方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN111652081A (zh) 一种基于光流特征融合的视频语义分割方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
CN116485860A (zh) 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN115578436A (zh) 一种基于多级特征并行交互融合的单目深度预测方法
CN114926826A (zh) 场景文本检测系统
CN112164065B (zh) 一种基于轻量化卷积神经网络的实时图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination