CN117058474B - 一种基于多传感器融合的深度估计方法及系统 - Google Patents
一种基于多传感器融合的深度估计方法及系统 Download PDFInfo
- Publication number
- CN117058474B CN117058474B CN202311316173.XA CN202311316173A CN117058474B CN 117058474 B CN117058474 B CN 117058474B CN 202311316173 A CN202311316173 A CN 202311316173A CN 117058474 B CN117058474 B CN 117058474B
- Authority
- CN
- China
- Prior art keywords
- current frame
- reference image
- camera
- depth estimation
- laser radar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005259 measurement Methods 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 206010049155 Visual brightness Diseases 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 239000002131 composite material Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Optical Radar Systems And Details Thereof (AREA)
Abstract
本发明公开了一种基于多传感器融合的深度估计方法及系统,涉及多传感器融合深度估计技术领域,该方法包括:构建多传感器融合深度估计模型;构建相机姿态估计模型;构建训练数据集;所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵;通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练;通过训练好的多传感器融合深度估计模型进行深度估计。本发明采用多传感器融合深度估计模型和姿态估计模型,优化模型训练策略,在保持深度估计精度的同时,可在任一传感器故障后继续进行单目深度估计。
Description
技术领域
本发明涉及多传感器融合深度估计技术领域,特别涉及一种基于多传感器融合的深度估计方法及系统。
背景技术
在室外场景中获取深度信息是一项重要的计算机视觉任务,深度信息可以提供大量关于不同物体之间的空间和逻辑关系。基于点云或基于立体匹配的方法都是获取场景深度信息的重要手段,已经有许多工作进行了相应的研究。但是较少工作关注多传感器融合时传感器故障后的鲁棒性问题。
目前,基于卷积神经网络的多传感器融合深度估计技术是多传感器融合深度估计技术中最常采用的一类技术,该类方法通常联合相机与激光雷达作为输入获取稠密的深度估计结果,但是在任一传感器故障时,无法在不切换模型的情况下仅依靠另一传感器完成原有深度估计任务。切换模型往往需要花费十数秒时间,限制了此类方法在各个领域,特别是在自动驾驶车辆上的应用。
发明内容
本发明的目的是提供一种基于多传感器融合的深度估计方法及系统,采用多传感器融合深度估计模型和姿态估计模型,优化模型训练策略,在保持深度估计精度的同时,可在任一传感器故障后继续进行单目深度估计。
为实现上述目的,本发明提供了如下方案:
一种基于多传感器融合的深度估计方法,包括:
构建多传感器融合深度估计模型;所述多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器;所述第一金字塔编码器和所述第二金字塔编码器由十五层卷积层组成;所述深度解码器由十层卷积层组成;
构建相机姿态估计模型;所述相机姿态估计模型包括第三金字塔编码器和姿态解码器;所述第三金字塔编码器由十五层卷积层组成,所述姿态解码器由一层卷积层组成;
构建训练数据集;所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵;
通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练;
通过训练好的多传感器融合深度估计模型进行深度估。
为实现上述目的,本发明还提供了如下方案:
一种基于多传感器融合的深度估计系统,包括:
第一模型构建模块,用于构建多传感器融合深度估计模型;所述多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器;所述第一金字塔编码器和所述第二金字塔编码器由十五层卷积层组成;所述深度解码器由十层卷积层组成;
第二模型构建模块,用于构建相机姿态估计模型;所述相机姿态估计模型包括第三金字塔编码器和姿态解码器;所述第三金字塔编码器由十五层卷积层组成,所述姿态解码器由一层卷积层组成;
数据集构建模块,用于构建训练数据集;所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵;
训练模块,用于通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练;
深度估计模块,用于通过训练好的多传感器融合深度估计模型进行深度估计。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明分别利用多传感器融合深度估计模型的两个金字塔编码器对参考图像和激光雷达点云进行特征提取,再利用多传感器融合深度估计模型的深度解码器进行深度估计,得到深度估计结果和激光雷达点云置信度估计结果,在训练过程中,采用多损失联合方式进行鲁棒训练,在保持深度估计精度的同时,可在任一传感器故障后继续进行单目深度估计。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于多传感器融合的深度估计方法的流程图;
图2为本发明提供的基于多传感器融合的深度估计方法的原理图;
图3为街道场景下的一帧图像示意图;
图4为街道场景下的一帧激光雷达点云的示意图;
图5采用本发明进行深度估计的结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于多传感器融合的深度估计方法及系统,在保持深度估计精度的同时,可在任一传感器故障后继续进行单目深度估计。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1-图2所示,本发明提供的基于多传感器融合的深度估计方法,包括以下步骤:
步骤10:构建多传感器融合深度估计模型;多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器。
第一金字塔编码器和第二金字塔编码器由十五层卷积层组成,用于提取图像和激光雷达点云特征,分别接收一帧彩色图像和一帧激光雷达点云为输入,输出多尺度图像特征图和多尺度激光雷达点云特征图。
深度解码器由十层卷积层组成,用于融合多尺度图像特征图和多尺度激光雷达点云特征图,并计算输出深度估计结果和激光雷达点云置信度结果。
步骤20:构建相机姿态估计模型;相机姿态估计模型包括第三金字塔编码器和姿态解码器。
第三金字塔编码器由十五层卷积层组成,用于提取姿态特征图,分别接收两帧彩色图像和两帧激光雷达点云为输入,输出多尺度姿态特征图。
姿态解码器由一层卷积层组成,用于接收第三金字塔编码器输出的多尺度姿态特征图作为输入,输出姿态估计结果。
步骤30:构建训练数据集;训练数据集包括多帧参考图像、与多帧参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵。
步骤40:通过训练数据集对多传感器融合深度估计模型和相机姿态估计模型进行训练。具体包括:
S41:将当前帧参考图像和当前帧激光雷达点云输入至多传感器融合深度估计模型中,输出深度估计结果和激光雷达置信度估计结果。
分别利用两个金字塔编码器(即第一金字塔编码器和第二金字塔编码器)对参考图像和激光雷达点云/>进行特征金字塔下采样分层,在每层金字塔分别进行三次卷积运算操作,获取五层分辨率不同的图像特征图(即多尺度图像特征图)和五层分辨率不同的激光雷达点云特征图(即多尺度激光雷达点云特征图),计算方式如下:
(1)
式中:运算符号Conv代表了卷积运算操作,其中、/>、/>分别是步长为1、2、3的/>卷积运算操作;/>是第一金字塔编码器输出的多尺度图像特征图;/>是第二金字塔编码器输出的多尺度激光雷达点云特征图,i表示金字塔编码器的第i层,/>为第一金字塔编码器第i-1层提取到的图像特征图,为第二金字塔编码器第i-1层提取到的激光雷达点云特征图。
利用深度解码器对多尺度图像特征图和多尺度激光雷达点云特征图/>进行反向遍历,对每层图像特征图和激光雷达点云特征图进行上采样,并与上一层的图像特征图和激光雷达点云特征图进行融合,获取最终的融合特征图Xi,计算方式如下:
(2)
式中:是融合后的特征图;/>是深度解码器输出的深度估计结果;/>是深度解码器输出的激光雷达置信度估计结果;Xi+1是上一层的融合特征图,/>是上一层的激光雷达点云特征图,/>是上一层的图像特征图,Mi+1是上一层计算的激光雷达置信度估计结果,运算符号/>代表了上采样操作;/>是矩阵逐点相乘运算;运算符号Cat是通道叠加运算。
为上述多传感器融合深度估计模型输入当前帧参考图像It和当前帧激光雷达点云Pt,得到当前帧参考图像It的深度估计结果Dt和激光雷达点云置信度估计结果。
步骤S42:将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至相机姿态估计模型中,输出姿态估计结果;姿态估计结果包括相机在上一帧参考图像到当前帧参考图像的相对位姿变化、位姿变化协方差估计结果、相机运动速度估计结果和相机重力加速度估计结果。
利用第三金字塔编码器对当前帧参考图像It、当前帧激光雷达点云Pt、上一帧参考图像It-1和上一帧激光雷达点云Pt-1进行特征金字塔下采样分层,在每层金字塔分别进行三次卷积运算操作,获取五层分辨率不同的姿态特征图,计算方式如下:
(3)
式中:是第三金字塔编码器输出的多尺度姿态特征图。
利用姿态解码器计算相机姿态估计,计算方式如下:
(4)
式中:是相机在上一帧参考图像到当前帧参考图像的相对位姿变化;是对应的位姿变化协方差估计结果;/>是相机运动速度估计结果;/>是相机重力加速度估计结果;/>是第三金字塔编码器输出的最后一层的姿态特征图。
通过相机在上一帧参考图像到当前帧参考图像的相对位姿变化、对应的位姿变化协方差估计结果/>、相机运动速度估计结果/>、相机重力加速度估计结果、当前帧惯性测量单元陀螺仪测量结果/>、上一帧惯性测量单元陀螺仪测量结果、当前帧惯性测量单元加速度计测量结果/>、上一帧惯性测量单元加速度计测量结果,计算融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化/>,计算方式如下:
(5)
式中:是扩展卡尔曼滤波器。
步骤S43:根据深度估计结果、激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及相机内参矩阵,确定损失函数。
通过分别利用姿态估计模型得到的相机在上一帧参考图像到当前帧参考图像的相对位姿变化和融合惯性测量单元后得到的相机在上一帧参考图像到当前帧参考图像的相对位姿变化/>,结合深度估计结果Dt、由相机内参矩阵K和上一帧参考图像It-1,分别计算当前帧合成图像/>和/>(即第一当前帧合成图像和第二当前帧合成图像),计算方式如下:
(6)
式中:是可微分采样器;/>是返回上一帧参考图像It-1中投影深度二维坐标的投影函数。
为了评估深度估计结果Dt的准确性,计算当前帧合成图像和/>分别与当前帧参考图像It的差异性,计算方式如下:
(7)
式中:;/>是结构相似性评估函数;/>是L1距离计算函数;/>和分别是视觉亮度重建损失和惯性测量单元亮度重建损失,a代指It,b代指/>或,pe(.)表示视觉亮度一致性误差计算函数。
为了评估相机姿态估计模型和实际惯性测量单元姿态估计结果的一致性,计算当前帧合成图像和/>的差异性,计算方式如下:
(8)
式中,为视觉-惯性重建一致性损失。
为了评估深度估计结果Dt的准确性,计算深度估计结果和当前帧激光雷达点云Pt的差异性,计算方式如下:
(9)
式中:是L2距离计算函数;/>是激光雷达点云监督损失;/>是二值化函数;M0是多传感器融合深度估计模型输出的激光雷达点云置信度估计结果;/>是当前帧激光雷达点云Pt的有效掩膜。
为了促进多传感器融合深度估计模型输出正确的激光雷达点云置信度,计算激光雷达点云置信度估计结果M0和当前帧激光雷达点云Pt的有效掩膜之间的差异性,计算方式如下:
(10)
式中,为置信度掩膜对抗损失。
组合前述各类损失函数,计算本次前向传播损失函数,计算方式如下:
(11)
为了实现单一传感器失效下模型仍能进行准确深度估计,分别将当前帧参考图像It和当前帧激光雷达点云Pt设置为全零矩阵作为输入,重新计算式(6)-(11),得到相机失效下的组合损失函数和激光雷达失效下的组合损失函数/>。本次迭代的最终损失函数计算方式如下:
(12)
步骤S44:通过损失函数对多传感器融合深度估计模型和相机姿态估计模型进行反向传播参数更新,并不断从训练数据集中获取数据样本进行迭代,直至损失函数收敛,完成多传感器融合深度估计模型和相机姿态估计模型的训练。
步骤50:通过训练好的多传感器融合深度估计模型进行深度估计。
训练完成后,输入街道场景图像的一帧图像(如图3所示)和一帧激光雷达点云(如图4所示),输出深度估计结果(如图5所示)。
本发明在训练过程中,对所得到深度估计结果和激光雷达点云置信度结果采用多损失联合方式进行鲁棒训练,能在任意单一传感器故障的同时保持深度估计。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供了一种基于多传感器融合的深度估计系统。
该系统包括:
第一模型构建模块,用于构建多传感器融合深度估计模型;多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器;第一金字塔编码器和第二金字塔编码器由十五层卷积层组成;深度解码器由十层卷积层组成。
第二模型构建模块,用于构建相机姿态估计模型;相机姿态估计模型包括第三金字塔编码器和姿态解码器;第三金字塔编码器由十五层卷积层组成,姿态解码器由一层卷积层组成。
数据集构建模块,用于构建训练数据集;训练数据集包括多帧参考图像、与多帧参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵。
训练模块,用于通过训练数据集对多传感器融合深度估计模型和相机姿态估计模型进行训练。
深度估计模块,用于通过训练好的多传感器融合深度估计模型进行深度估计。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于多传感器融合的深度估计方法,其特征在于,包括:
构建多传感器融合深度估计模型;所述多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器;所述第一金字塔编码器和所述第二金字塔编码器由十五层卷积层组成;所述深度解码器由十层卷积层组成;
构建相机姿态估计模型;所述相机姿态估计模型包括第三金字塔编码器和姿态解码器;所述第三金字塔编码器由十五层卷积层组成,所述姿态解码器由一层卷积层组成;
构建训练数据集;所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵;
通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练;
通过训练好的多传感器融合深度估计模型进行深度估计;
其中,通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练,具体包括:
将当前帧参考图像和当前帧激光雷达点云输入至所述多传感器融合深度估计模型中,输出深度估计结果和激光雷达置信度估计结果;
将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至所述相机姿态估计模型中,输出姿态估计结果;所述姿态估计结果包括相机在上一帧参考图像到当前帧参考图像的相对位姿变化、位姿变化协方差估计结果、相机运动速度估计结果和相机重力加速度估计结果;
根据所述姿态估计结果、当前帧惯性测量单元陀螺仪测量结果、上一帧惯性测量单元陀螺仪测量结果、当前帧惯性测量单元加速度计测量结果和上一帧惯性测量单元加速度计测量结果,计算融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化;
根据所述深度估计结果、所述激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及所述相机内参矩阵,确定损失函数;
通过所述损失函数对所述多传感器融合深度估计模型和所述相机姿态估计模型进行反向传播参数更新,并不断从所述训练数据集中获取数据样本进行迭代,直至所述损失函数收敛,完成所述多传感器融合深度估计模型和所述相机姿态估计模型的训练;
其中,根据所述深度估计结果、所述激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及所述相机内参矩阵,确定损失函数,具体包括:
根据所述深度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、当前帧参考图像以及所述相机内参矩阵,计算第一当前帧合成图像;
根据所述深度估计结果、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化、当前帧参考图像以及所述相机内参矩阵,计算第二当前帧合成图像;
计算所述第一当前帧合成图像与所述当前帧参考图像的差异性,确定视觉亮度重建损失;
计算所述第二当前帧合成图像与所述当前帧参考图像的差异性,确定惯性测量单元亮度重建损失;
计算所述第一当前帧合成图像与所述第二当前帧合成图像的差异性,确定视觉-惯性重建一致性损失;
计算当前帧参考图像的深度估计结果与所述当前帧激光雷达点云的差异性,确定激光雷达点云监督损失;
计算激光雷达置信度估计结果与当前帧激光雷达点云的有效掩膜之间的差异性,确定置信度掩膜对抗损失;
基于所述视觉亮度重建损失、所述惯性测量单元亮度重建损失、所述视觉-惯性重建一致性损失、所述激光雷达点云监督损失以及所述置信度掩膜对抗损失,计算前向传播损失函数;
分别将当前帧参考图像和当前帧激光雷达点云设置为全零矩阵,计算得到相机失效下的组合损失函数和激光雷达失效下的组合损失函数;
基于所述前向传播损失函数、所述相机失效下的组合损失函数以及所述激光雷达失效下的组合损失函数,计算最终的损失函数。
2.根据权利要求1所述的基于多传感器融合的深度估计方法,其特征在于,将当前帧参考图像和当前帧激光雷达点云输入至所述多传感器融合深度估计模型中,输出深度估计结果和激光雷达置信度估计结果,具体包括:
将当前帧参考图像输入至所述第一金字塔编码器中,输出多尺度图像特征图;
将当前帧激光雷达点云输入至所述第二金字塔编码器中,输出多尺度激光雷达点云特征图;
将所述多尺度图像特征图和所述多尺度激光雷达点云特征图输入至所述深度解码器中,输出深度估计结果和激光雷达置信度估计结果。
3.根据权利要求1所述的基于多传感器融合的深度估计方法,其特征在于,将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至所述相机姿态估计模型中,输出姿态估计结果,具体包括:
将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至所述第三金字塔编码器中,输出多尺度姿态特征图;
将所述多尺度姿态特征图输入至所述姿态解码器中,输出姿态估计结果。
4.根据权利要求1所述的基于多传感器融合的深度估计方法,其特征在于,所述视觉亮度重建损失和所述惯性测量单元亮度重建损失的计算公式如下:
;
其中,为视觉亮度重建损失,/>为惯性测量单元亮度重建损失,It为当前帧参考图像,/>为第一当前帧合成图像,/>为第二当前帧合成图像,ɑ=0.85,SSIM为结构相似性评估函数,/>为L1距离计算函数,ɑ代指It,b代指/>或/>,pe(.)表示视觉亮度一致性误差计算函数。
5.根据权利要求4所述的基于多传感器融合的深度估计方法,其特征在于,所述视觉-惯性重建一致性损失的计算公式如下:
;
其中,为视觉-惯性重建一致性损失。
6.根据权利要求4所述的基于多传感器融合的深度估计方法,其特征在于,所述激光雷达点云监督损失的计算公式如下:
;
其中,为激光雷达点云监督损失,Dt为当前帧参考图像的深度估计结果,Pt为当前帧激光雷达点云,M0为激光雷达点云置信度估计结果,/>为当前帧激光雷达点云Pt的有效掩膜,/>为L2距离计算函数,/>为二值化函数。
7.根据权利要求6所述的基于多传感器融合的深度估计方法,其特征在于,所述置信度掩膜对抗损失的计算公式如下:
;
其中,为置信度掩膜对抗损失。
8.一种基于多传感器融合的深度估计系统,其特征在于,包括:
第一模型构建模块,用于构建多传感器融合深度估计模型;所述多传感器融合深度估计模型包括第一金字塔编码器、第二金字塔编码器和深度解码器;所述第一金字塔编码器和所述第二金字塔编码器由十五层卷积层组成;所述深度解码器由十层卷积层组成;
第二模型构建模块,用于构建相机姿态估计模型;所述相机姿态估计模型包括第三金字塔编码器和姿态解码器;所述第三金字塔编码器由十五层卷积层组成,所述姿态解码器由一层卷积层组成;
数据集构建模块,用于构建训练数据集;所述训练数据集包括多帧参考图像、与多帧所述参考图像对应的激光雷达点云、惯性测量单元陀螺仪测量结果、惯性测量单元加速度计测量结果和相机内参矩阵;
训练模块,用于通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练;
深度估计模块,用于通过训练好的多传感器融合深度估计模型进行深度估计;
其中,通过所述训练数据集对所述多传感器融合深度估计模型和所述相机姿态估计模型进行训练,具体包括:
将当前帧参考图像和当前帧激光雷达点云输入至所述多传感器融合深度估计模型中,输出深度估计结果和激光雷达置信度估计结果;
将当前帧参考图像、上一帧参考图像、当前帧激光雷达点云和上一帧激光雷达点云输入至所述相机姿态估计模型中,输出姿态估计结果;所述姿态估计结果包括相机在上一帧参考图像到当前帧参考图像的相对位姿变化、位姿变化协方差估计结果、相机运动速度估计结果和相机重力加速度估计结果;
根据所述姿态估计结果、当前帧惯性测量单元陀螺仪测量结果、上一帧惯性测量单元陀螺仪测量结果、当前帧惯性测量单元加速度计测量结果和上一帧惯性测量单元加速度计测量结果,计算融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化;
根据所述深度估计结果、所述激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及所述相机内参矩阵,确定损失函数;
通过所述损失函数对所述多传感器融合深度估计模型和所述相机姿态估计模型进行反向传播参数更新,并不断从所述训练数据集中获取数据样本进行迭代,直至所述损失函数收敛,完成所述多传感器融合深度估计模型和所述相机姿态估计模型的训练;
其中,根据所述深度估计结果、所述激光雷达置信度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化以及所述相机内参矩阵,确定损失函数,具体包括:
根据所述深度估计结果、相机在上一帧参考图像到当前帧参考图像的相对位姿变化、当前帧参考图像以及所述相机内参矩阵,计算第一当前帧合成图像;
根据所述深度估计结果、融合惯性测量单元测量结果后的相机在上一帧参考图像到当前帧参考图像的相对位姿变化、当前帧参考图像以及所述相机内参矩阵,计算第二当前帧合成图像;
计算所述第一当前帧合成图像与所述当前帧参考图像的差异性,确定视觉亮度重建损失;
计算所述第二当前帧合成图像与所述当前帧参考图像的差异性,确定惯性测量单元亮度重建损失;
计算所述第一当前帧合成图像与所述第二当前帧合成图像的差异性,确定视觉-惯性重建一致性损失;
计算当前帧参考图像的深度估计结果与所述当前帧激光雷达点云的差异性,确定激光雷达点云监督损失;
计算激光雷达置信度估计结果与当前帧激光雷达点云的有效掩膜之间的差异性,确定置信度掩膜对抗损失;
基于所述视觉亮度重建损失、所述惯性测量单元亮度重建损失、所述视觉-惯性重建一致性损失、所述激光雷达点云监督损失以及所述置信度掩膜对抗损失,计算前向传播损失函数;
分别将当前帧参考图像和当前帧激光雷达点云设置为全零矩阵,计算得到相机失效下的组合损失函数和激光雷达失效下的组合损失函数;
基于所述前向传播损失函数、所述相机失效下的组合损失函数以及所述激光雷达失效下的组合损失函数,计算最终的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316173.XA CN117058474B (zh) | 2023-10-12 | 2023-10-12 | 一种基于多传感器融合的深度估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316173.XA CN117058474B (zh) | 2023-10-12 | 2023-10-12 | 一种基于多传感器融合的深度估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117058474A CN117058474A (zh) | 2023-11-14 |
CN117058474B true CN117058474B (zh) | 2024-01-12 |
Family
ID=88666706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311316173.XA Active CN117058474B (zh) | 2023-10-12 | 2023-10-12 | 一种基于多传感器融合的深度估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058474B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118135338B (zh) * | 2024-05-06 | 2024-07-12 | 国任财产保险股份有限公司 | 一种基于车辆外部损伤自动检测的车险评估方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612556A (zh) * | 2022-03-01 | 2022-06-10 | 北京市商汤科技开发有限公司 | 视觉惯性里程计模型的训练方法、位姿估计方法及装置 |
US11543263B1 (en) * | 2020-09-16 | 2023-01-03 | Zoox, Inc. | Map distortion determination |
CN116184430A (zh) * | 2023-02-21 | 2023-05-30 | 合肥泰瑞数创科技有限公司 | 一种激光雷达、可见光相机、惯性测量单元融合的位姿估计算法 |
CN116342675A (zh) * | 2023-05-29 | 2023-06-27 | 南昌航空大学 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
CN116824433A (zh) * | 2023-05-05 | 2023-09-29 | 中国科学院上海微系统与信息技术研究所 | 基于自监督神经网络的视觉-惯导-雷达融合自定位方法 |
-
2023
- 2023-10-12 CN CN202311316173.XA patent/CN117058474B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11543263B1 (en) * | 2020-09-16 | 2023-01-03 | Zoox, Inc. | Map distortion determination |
CN114612556A (zh) * | 2022-03-01 | 2022-06-10 | 北京市商汤科技开发有限公司 | 视觉惯性里程计模型的训练方法、位姿估计方法及装置 |
CN116184430A (zh) * | 2023-02-21 | 2023-05-30 | 合肥泰瑞数创科技有限公司 | 一种激光雷达、可见光相机、惯性测量单元融合的位姿估计算法 |
CN116824433A (zh) * | 2023-05-05 | 2023-09-29 | 中国科学院上海微系统与信息技术研究所 | 基于自监督神经网络的视觉-惯导-雷达融合自定位方法 |
CN116342675A (zh) * | 2023-05-29 | 2023-06-27 | 南昌航空大学 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Multi-modal RGBD Attention Fusion for Dense Depth Estimation;Kirill Zhingalov;《2022 IEEE 20th Jubilee International Symposium on Intelligent Systems and Informatics (SISY)》;全文 * |
基于激光SLAM和深度学习的语义地图构建;何松;孙静;郭乐江;陈梁;;计算机技术与发展(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117058474A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110160502B (zh) | 地图要素提取方法、装置及服务器 | |
CN111311685B (zh) | 一种基于imu与单目图像的运动场景重构无监督方法 | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
CN113903011B (zh) | 一种适用于室内停车场的语义地图构建及定位方法 | |
US11282164B2 (en) | Depth-guided video inpainting for autonomous driving | |
CN113516664A (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN112556719B (zh) | 一种基于cnn-ekf的视觉惯性里程计实现方法 | |
CN109272493A (zh) | 一种基于递归卷积神经网络的单目视觉里程计方法 | |
CN117058474B (zh) | 一种基于多传感器融合的深度估计方法及系统 | |
CN105141807A (zh) | 视频信号图像处理方法和装置 | |
CN111860651B (zh) | 一种基于单目视觉的移动机器人半稠密地图构建方法 | |
CN109299656B (zh) | 一种车载视觉系统场景视深确定方法 | |
CN115830265A (zh) | 一种基于激光雷达的自动驾驶运动障碍物分割方法 | |
CN115496900A (zh) | 一种基于稀疏融合的在线碳语义地图构建方法 | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN117876608B (zh) | 三维图像重建方法、装置、计算机设备及存储介质 | |
CN116342675B (zh) | 一种实时单目深度估计方法、系统、电子设备及存储介质 | |
CN117437274A (zh) | 一种单目图像深度估计方法及系统 | |
CN116704032A (zh) | 一种基于单目深度估计网络和gps的室外视觉slam方法 | |
CN116824433A (zh) | 基于自监督神经网络的视觉-惯导-雷达融合自定位方法 | |
CN114897955B (zh) | 一种基于可微几何传播的深度补全方法 | |
CN116630528A (zh) | 基于神经网络的静态场景重建方法 | |
CN114119678A (zh) | 光流估计方法、计算机程序产品、存储介质及电子设备 | |
CN114926485B (zh) | 图像深度标注方法、装置、设备及存储介质 | |
CN116189145B (zh) | 一种线形地图要素的提取方法、系统和可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |