CN116485867A - 一种面向自动驾驶的结构化场景深度估计方法 - Google Patents
一种面向自动驾驶的结构化场景深度估计方法 Download PDFInfo
- Publication number
- CN116485867A CN116485867A CN202310591809.5A CN202310591809A CN116485867A CN 116485867 A CN116485867 A CN 116485867A CN 202310591809 A CN202310591809 A CN 202310591809A CN 116485867 A CN116485867 A CN 116485867A
- Authority
- CN
- China
- Prior art keywords
- depth
- map
- decoder
- scene
- double
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 16
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Image Processing (AREA)
Abstract
本发明属于自动驾驶技术领域,具体为一种面向自动驾驶的结构化场景深度估计方法,通过双编码器对输入的RGB图像和毫米波雷达数据,采用稀疏前置映射模块提取稀疏的毫米波雷达特征并与图像特征进行融合,得到第一融合特征图。通过四个解码器中的其中1个解码器对第一融合特征图进行解码得到语义分割图,利用语义分割图将场景分类为三个特征类别;通过另外3个深度解码器分别对第一特征融合图解码,各得到1张初始预测图;3张初始预测图与三个特征类别一一对应融合,由此实现场景中的语义信息引入。结合本发明设计的基于L1loss的改进损失函数,该函数是在L1loss的基础上,对场景中不同类别目标赋予不同权重以提高网络性能。
Description
技术领域
本发明涉及自动驾驶技术领域,具体为一种面向自动驾驶的结构化场景深度估计方法。
背景技术
单目深度估计是计算机视觉领域中长期存在的一个不适定问题,它利用单张RGB图像估计场景中每个点到相机的距离,在机器人、自动驾驶、三维重建等多个领域中都有着广泛应用。
传统的单目深度估计方法主要利用手工设计的特征,代表方法有运动恢复结构(SFM)和基于传统机器学习方法。运动恢复结构(SFM)是将摄像机运动作为线索进行深度估计,基于传统机器学习方法,通过使用马尔科夫随机场(MRF)或条件随机场(CRF)在图像与深度之间建立模型,学习输入特征与输出深度之间的映射关系,以获得深度估计信息。
近年来,深度神经网络快速发展,已经在图像分类、图像检测、图像分割等图像处理任务中表现出了极为优秀的性能,因此研究者们将其引入到了单目深度估计中。2014年,Eigen等人首次使用深度卷积神经网络进行单目深度估计,它以RGB图像作为输入,经由两阶段网络分别粗略预测图像全局信息和细调图像局部信息。自从深度学习被应用到单目深度估计领域后,相关方法不断改进,如搭建多尺度网络改进性能,利用编码解码结构进行深度估计,或者按照深度分层,将深度估计从回归任务转化为分类任务。上述方法的训练均依赖于场景的真实深度标签,由于逐像素标注成本高昂,因此无监督学习方法也受到广泛的关注。其通常使用成对的立体图片或图片序列进行训练,通过图像重建的损失监督网络的训练,避免了标注过程中大量人力资源的投入。
深度补全任务引入深度传感器,如激光雷达和毫米波雷达,将从深度传感器获得的粗糙深度图恢复成稠密的深度图。尽管纯视觉的深度估计方法已经可以取得较为满意的结果,利用传感器获取的额外深度信息与RGB图像信息相融合依然大幅度提高了深度估计的精度。深度补全任务关键点在于输入深度图十分稀疏且包含较大噪音,以及如何将图像与深度两个维度的信息充分融合以获得更好的结果。目前的深度补全方法利用多分支网络,使用编码器分别从稀疏深度图及其对应的RGB图像中提取特征,然后在不同层级上将特征融合,经解码器得到稠密深度图。随着深度补全技术的推进,表面法线、亲和矩阵等也被研究者们引入到网络模型之中,它们都促进了深度补全的发展。
在自动驾驶场景中,深度估计任务发挥着重要的作用。结构化场景下的深度估计具有相对标准的场景特点,但是过去的方法并未考虑到利用场景信息对深度估计预测结果进行提升,也并未充分利用场景中的语义信息,因此,有必要对现有的结构化场景深度估计方法进行改进研究,以提高深度估计的精度。
发明内容
本发明的目的在于:针对上述现有深度估计方法存在的不足,提出一种面向自动驾驶的结构化场景深度估计方法。该方法以RGB图像和稀疏深度图作为输入,构建基于场景中的语义信息的双编码-四解码网络结构,以实现深度估计的精度提升。在构建双编码-四解码网络结构过程中,设计基于L1 loss改进的损失函数,对场景中不同类别目标,赋予不同权重以提高网络性能。
为实现上述目的,本发明采用如下技术方案:
一种面向自动驾驶的结构化场景深度估计方法,包括以下步骤:
步骤1、设计双编码-四解码网络
双编码-四解码网络由双编码网络和四解码网络组成;双编码网络以RGB图像和毫米波雷达数据作为输入,分别提取特征后融合,得到第一融合特征图;
四解码网络由四个解码器组成,四个解码器分别为第一解码器、第二解码器、第三解码器和第四解码器,第一解码器为分割解码器,第二解码器、第三解码器和第四解码器均为深度解码器:首先,将第一融合特征图分别输入四个解码器中,第一解码器根据第一融合特征图解码生成语义分割图,并根据语义分割图将场景划分三个特征类别,三个特征类别为道路及交通参与者特征、树木及建筑特征和天空特征三个特征类别;三个深度解码器分别对接收的第一融合特征图解码,各得到一张初始预测深度图;三张初始预测图与三个特征类别一一对应融合,获得不同场景类别下的深度图;然后再对不同场景类别下的深度图进行融合,得到预测深度图;
步骤2、设计双编码-四解码网络的损失函数
双编码-四解码网络的损失函数由四部分组成,分别是深度损失Ldepth、平滑损失Lsmooth,对稀疏前置模块生成的特征图的监督损失Lmap、对语义分割结果的监督损失Lseg;其中,深度损失Ldepth是以L1 loss为基础,将场景中的道路及交通参与者、树木及建筑、天空分别赋予不同权重后的改进函数;
深度损失Ldepth如式(2)所示:
式(2)中,d和分别表示真实深度图和预测深度图。S1表示d中属于道路及交通参与者的集合,S1表示d中不属于道路及交通参与者的集合,m为有效深度的数量,ω为需要调节的超参数;当ω取值1.4时,自动驾驶场景中各类别特征点之间平衡达到最优;
平滑损失Lsmooth如式(3)所示:
式(3)中,分别表示沿x和y方向的梯度,I表示输入图像。
完整的双编码-四解码网络的损失函数如式(4)所示:
Ltotal=λ1(Ldepth+λ2Lsmooth+λ3Lmap)+Lseg (4)
式(4)中,λ1,λ2,λ3均为加权因子,根据经验设定;
步骤3、以深度标签与分割标签为真值对网络进行监督,使用步骤2得到的损失函数进行反馈来训练双编码-四解码网络;
步骤4、将待估RGB图像和毫米波雷达数据输入训练好的双编码-四解码网络,对场景进行深度估计,得到最终的预测深度图。
进一步的,所述构建并训练双编码-四解码网络时,均采用了nuScenes数据集。
进一步的,所述双编码网络包括图像编码器和深度编码器;其中所述图像编码器为预先训练过并去除了全连接层的ResNet-34网络;所述深度编码器,包括稀疏前置映射模块和残差模块,通过稀疏前置映射模块提取毫米波雷达数据的初步特征,再采用残差模块进一步提取特征。
进一步的,所述深度解码器由4个依次连接的上采样模块组成,根据输入的第一融合特征图,首先生成一个分辨率为输入图像一半的16通道的特征映射,然后通过3×3卷积将生成的特征映射到单通道,最后使用双线性上采样到原分辨率后,直接作为初始预测图输出。
更进一步的,所述分割解码器与深度解码器结构类似,其区别在于通过3×3卷积将生成的特征映射到不同分割类别的十九个通道,再采用softmax函数对其进行分类,得到三个特征类别输出。
本发明提供的一种面向自动驾驶的结构化场景深度估计方法,是以RGB图像和稀疏深度图作为输入,构建基于场景中的语义信息的双编码-四解码网络结构。该网络结构通过双编码器对输入的RGB图像和毫米波雷达数据,采用稀疏前置映射模块提取稀疏的毫米波雷达特征并与图像特征进行融合,得到第一融合特征图。通过四个解码器对第一融合特征图解码;解码过程中,利用其中1个解码器对第一融合特征图进行解码得到语义分割图,利用语义分割图将场景分类为三个特征类别;通过另外3个深度解码器来分别预测场景中三类目标的深度图,即三个解码器分别对第一特征融合图解码,各得到1张初始预测图;3张初始预测图与三个特征类别一一对应融合,由此实现场景中的语义信息引入。结合本发明设计的基于L1 loss的改进损失函数,该函数是在L1 loss的基础上,对场景中不同类别目标赋予不同权重以提高网络性能。
与现有技术相比,本发明其深度估计的精度更高。
附图说明
图1为实施例双编码-四解码网络架构示意图;
图2为实施例的稀疏前置映射模块示意图;
图3为实施例不同场景类别下的深度图融合过程;
图4为本实施例双编码-四解码网络训练和推导示意图;
图5为实施例得到的深度估计结果展示图。
具体实施方式
下面结合附图和实施例对本发明作详细说明。
本实施例提供的一种面向自动驾驶的结构化场景深度估计方法,包括以下步骤:
步骤1、设计双编码-四解码网络
如图1所示,双编码-四解码网络由双编码网络和四解码网络组成。
所述双编码网络包括图像编码器和深度编码器。其中所述图像编码器为在ImageNet上预先训练过,并去除了全连接层的ResNet-34网络。包括4个依次连接的卷积模块,4个卷积模块按连接顺序依次生成原图尺寸1/4,1/8,1/16,1/32的特征图,4个卷积模块的通道按连接顺序数依次为64,128,256,512。
所述深度编码器,包括稀疏前置映射模块和残差模块,通过稀疏前置映射模块提取毫米波雷达数据的初步特征,再采用残差模块进一步提取特征。如图2所示,稀疏前置映射模块通过5个堆叠的稀疏不变卷积来获得更稠密的特征图,并在其输出处双线性上采样到原分辨率后,对此处的输出施加监督。其中稀疏不变卷积采用逐渐减少的卷积核依次为7,5,3,3,1,前4个卷积的输出通道数为16,最后一个卷积的输出通道数为1,第1个卷积的步幅为2,其余卷积步幅都为1,用于得到更稠密的输出以便施加监督。最后,将第4个卷积的输出作为残差模块的输入,进一步采用残差模块提取更高级的特征。本实施例中,稀疏前置映射模块采用的计算公式为:
式(1)中,x为输入;o代表对应于输入x的二值1或0,1表示有观测值)或者0表示没有观测值);W表示;为权重参数;b表示偏置;u、v为像素点坐标;ε为防止除数为0的一个极小的正数;
残差模块采用层数更少的4个卷积模块,沿输出方向4个卷积模块分别得到的特征图,其尺寸依次为原图尺寸1/4,1/8,1/16,1/32的特征图,通道数依次分别为16,32,64,128。
四解码网络由四个解码器组成,四个解码器分别为第一解码器、第二解码器、第三解码器和第四解码器,第一解码器为分割解码器,第二解码器、第三解码器和第四解码器均为深度解码器。
首先,将第一融合特征图分别输入四个解码器中,第一解码器用于生成语义分割图,其包含4个依次连接的上采样模块,输入的第一特征融合图经4个上采样模块后,分别得到原图尺寸1/16,1/8,1/4,1/2的特征图,4个上采样模块的通道数分别为128,64,32,16。最后一个上采样模块的输出经过双线性上采样至19个通道后,再由softmax函数分类得到最终的分割结果,即得到道路及交通参与者特征、树木及建筑特征和天空特征三个特征类别输出。三个深度解码器结构与分割解码器类似,同样包含4个依次连接的上采样模块。只是深度解码器的最后一个上采样模块的输出经过双线性采样到原分辨率后,直接作为初始预测图输出。如图3所示,三个深度解码器各自生成的三张初始预测图与三个特征类别一一对应融合,获得不同场景类别下的深度图;然后再对不同场景类别下的深度图进行融合,得到预测深度图。
步骤2、设计双编码-四解码网络的损失函数,损失函数由四部分组成,分别是深度损失Ldepth、平滑损失Lsmooth,对稀疏前置模块生成的特征图的监督损失Lmap、对语义分割结果的监督损失Lseg。包括以下子步骤:
2.1、改进L1 loss
在自动驾驶场景中各像素点存在一定关系,对网络参数进行优化时,需要考虑到各类别点的平衡关系,设计合适的损失函数。基于此,本实施将场景中的道路及交通参与者、树木及建筑、天空分别赋予不同权重,以L1 loss为基础,设计深度损失函数如下所示:
式(2)中,d和分别表示ground truth depth map和预测深度图。S1表示d中属于道路及交通参与者的集合,S1表示d中不属于道路及交通参与者的集合,m为有效深度的数量,ω为需要调节的超参数。
通过大量实验表明,合适的参数ω,能够使场景中各类别像素点达到平衡,在训练时使优化效果进一步提升。对ω取不同值,从0开始,以0.2为步长,得到其对各类别的误差如
表1所示:
从表中不难看出,当ω为1.4时,自动驾驶场景中各类别特征像素点之间平衡达到最优;获得的预测效果最好。
2.2、对平滑损失定义
由于深度不连续通常发生在交界处,因此使用图像梯度进行加权,平滑损失Lsmooth定义为:
其中分别表示沿x和y方向的梯度。I表示输入图像。
2.3、引入监督损失,监督损失包含两部分:一是对稀疏前置映射模块生成的深度图map监督损失,记为Lmap;二是对引入分割解码器语义分割结果的监督损失,记为Lseg
因此,双编码-四解码网络的损失函数为:
Ltotal=λ1(Ldepth+λ2Lsmooth+λ3Lmap)+Lseg (4)
其中λ1,λ2,λ3是根据经验设定的超参数。
步骤3、以深度标签与分割标签为真值对网络进行监督,使用步骤2得到的损失函数进行反馈来训练双编码-四解码网络。如图4所示,本实施训练时仅以图像和毫米波雷达作为输入生成深度图。
步骤4、将待估RGB图像和毫米波雷达数据输入训练好的双编码-四解码网络,对场景进行深度估计。结果如图5所示。其中预测结果中的颜色从蓝到红渐变,表示深度值增大,估计的最大深度值为120米。
本实施例对双编码-四解码网络训练和测试均采用nuScenes数据集,nuScenes数据集中不仅包含相机和激光雷达数据,也记录了毫米波雷达数据,是为数不多包含毫米波雷达数据的大型数据集。该数据集每个场景时长20秒,其中有40个关键帧,每帧图像的分辨率为1600×900。并且nuScenes中包含各种情况下的驾驶场景,如雨天、夜晚等,这也增加了在该数据集上进行深度估计的难度。本发明使用了850个场景,并将它们分为810个场景用于训练,40个场景用于评估。(训练集共计32564张图片,测试集共计1585张图片)。最终估计得到的深度图在所有像素点,即144万个像素点上都估计出最终深度,相比于初始毫米波雷达每帧探测的有效点数仅为40-50点,提升约两万倍的稠密度。
本实施例使用Pytorch部署网络,并且在NVIDIA GeForce GTX TITAN X上训练。批大小设置为4,使用Adam优化器其学习率为0.0005,并且每5个轮次学习率下降一半,参数设置为λ1=0.5,λ2=0.001,λ3=0.3。所得结果在所有像素位置处计算误差,结果如表2所示,可以看出本发明的各项指标都优于现有的先进方案,证明了对不同类别分别进行深度估计和采用本发明提出的损失函数有效提升了网络的性能。令d和分别表示预测的深度图和标签,n表示每幅图像存在激光雷达深度值的观测点个数,Y表示测量范围。所采用的评价指标如下所示:
均方根误差(RMSE):
平均绝对误差(MAE):
表2深度估计结果
Claims (5)
1.一种面向自动驾驶的结构化场景深度估计方法,其特征在于,包括以下步骤:
步骤1、设计双编码-四解码网络
双编码-四解码网络由双编码网络和四解码网络组成;双编码网络以RGB图像和毫米波雷达数据作为输入,分别提取特征后融合,得到第一融合特征图;
四解码网络由四个解码器组成,四个解码器分别为第一解码器、第二解码器、第三解码器和第四解码器,第一解码器为分割解码器,第二解码器、第三解码器和第四解码器均为深度解码器:首先,将第一融合特征图分别输入四个解码器中,第一解码器根据第一融合特征图解码生成语义分割图,并根据语义分割图将场景划分三个特征类别,三个特征类别为道路及交通参与者特征、树木及建筑特征和天空特征三个特征类别;三个深度解码器分别对接收的第一融合特征图解码,各得到一张初始预测深度图;三张初始预测图与三个特征类别一一对应融合,获得不同场景类别下的深度图;然后再对不同场景类别下的深度图进行融合,得到预测深度图;
步骤2、设计双编码-四解码网络的损失函数
双编码-四解码网络的损失函数由四部分组成,分别是深度损失Ldepth、平滑损失Lsmooth,对稀疏前置模块生成的特征图的监督损失Lmap、对语义分割结果的监督损失Lseg;其中,深度损失Ldepth是以L1 loss为基础,将场景中的道路及交通参与者、树木及建筑、天空分别赋予不同权重后的改进函数;
深度损失Ldepth如式(2)所示:
式(2)中,d和分别表示真实深度图和预测深度图,S1表示d中属于道路及交通参与者的集合,S1表示d中不属于道路及交通参与者的集合,m为有效深度的数量,ω为需要调节的超参数;当ω取值1.4时,自动驾驶场景中各类别特征点之间平衡达到最优;
平滑损失Lsmooth如式(3)所示:
式(3)中,分别表示沿x和y方向的梯度,I表示输入图像;
完整的双编码-四解码网络的损失函数如式(4)所示:
Ltotal=λ1(Ldepth+λ2Lsmooth+λ3Lmap)+Lseg (4)
式(4)中,λ1,λ2,λ3均为加权因子,根据经验设定;
步骤3、以深度标签与分割标签为真值对网络进行监督,使用步骤2得到的损失函数进行反馈来训练双编码-四解码网络;
步骤4、将待估RGB图像和毫米波雷达数据输入训练好的双编码-四解码网络,对场景进行深度估计,得到最终的预测深度图。
2.根据权利要求1所述的一种面向自动驾驶的结构化场景深度估计方法,其特征在于:在构建并训练双编码-四解码网络时,均采用了nuScenes数据集。
3.根据权利要求1所述的一种面向自动驾驶的结构化场景深度估计方法,其特征在于:所述双编码网络包括图像编码器和深度编码器;其中所述图像编码器为预先训练过并去除了全连接层的ResNet-34网络;所述深度编码器,包括稀疏前置映射模块和残差模块,通过稀疏前置映射模块提取毫米波雷达数据的初步特征,再采用残差模块进一步提取特征。
4.根据权利要求1所述的一种面向自动驾驶的结构化场景深度估计方法,其特征在于:所述深度解码器由4个依次连接的上采样模块组成,根据输入的第一融合特征图,首先生成一个分辨率为输入图像一半的16通道的特征映射,然后通过3×3卷积将生成的特征映射到单通道,最后使用双线性上采样到原分辨率后,直接作为初始预测图输出。
5.根据权利要求4所述的一种面向自动驾驶的结构化场景深度估计方法,其特征在于:所述分割解码器与深度解码器结构类似,其区别在于通过3×3卷积将生成的特征映射到不同分割类别的十九个通道,再采用softmax函数对其进行分类,得到三个特征类别输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591809.5A CN116485867A (zh) | 2023-05-24 | 2023-05-24 | 一种面向自动驾驶的结构化场景深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591809.5A CN116485867A (zh) | 2023-05-24 | 2023-05-24 | 一种面向自动驾驶的结构化场景深度估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116485867A true CN116485867A (zh) | 2023-07-25 |
Family
ID=87223376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310591809.5A Pending CN116485867A (zh) | 2023-05-24 | 2023-05-24 | 一种面向自动驾驶的结构化场景深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116485867A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197762A (zh) * | 2023-08-30 | 2023-12-08 | 郑州大学 | 一种基于视觉和深度线索的自动驾驶场景检测方法 |
CN117333627A (zh) * | 2023-12-01 | 2024-01-02 | 南方科技大学 | 一种自动驾驶场景的重建与补全方法、系统及存储介质 |
-
2023
- 2023-05-24 CN CN202310591809.5A patent/CN116485867A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197762A (zh) * | 2023-08-30 | 2023-12-08 | 郑州大学 | 一种基于视觉和深度线索的自动驾驶场景检测方法 |
CN117333627A (zh) * | 2023-12-01 | 2024-01-02 | 南方科技大学 | 一种自动驾驶场景的重建与补全方法、系统及存储介质 |
CN117333627B (zh) * | 2023-12-01 | 2024-04-02 | 南方科技大学 | 一种自动驾驶场景的重建与补全方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
Alonso et al. | 3d-mininet: Learning a 2d representation from point clouds for fast and efficient 3d lidar semantic segmentation | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN115601549B (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN110197505B (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN113657388A (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN112329780B (zh) | 一种基于深度学习的深度图像语义分割方法 | |
Maslov et al. | Online supervised attention-based recurrent depth estimation from monocular video | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN115512103A (zh) | 多尺度融合遥感图像语义分割方法及系统 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN112560865A (zh) | 一种室外大场景下点云的语义分割方法 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN114638836A (zh) | 基于高度有效驱动与多层级特征融合的城市街景分割方法 | |
Hwang et al. | Lidar depth completion using color-embedded information via knowledge distillation | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN115511759A (zh) | 一种基于级联特征交互的点云图像深度补全方法 | |
CN112507849A (zh) | 一种基于条件生成对抗网络的动态到静态场景转换方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN115049739A (zh) | 一种基于边缘检测的双目视觉立体匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |