CN114627351A - 一种基于视觉和毫米波雷达的融合深度估计方法 - Google Patents
一种基于视觉和毫米波雷达的融合深度估计方法 Download PDFInfo
- Publication number
- CN114627351A CN114627351A CN202210149240.2A CN202210149240A CN114627351A CN 114627351 A CN114627351 A CN 114627351A CN 202210149240 A CN202210149240 A CN 202210149240A CN 114627351 A CN114627351 A CN 114627351A
- Authority
- CN
- China
- Prior art keywords
- depth
- sparse
- millimeter wave
- wave radar
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 title claims abstract description 36
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 5
- 230000015556 catabolic process Effects 0.000 abstract description 3
- 238000006731 degradation reaction Methods 0.000 abstract description 3
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000009978 visual deterioration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
- G01S13/89—Radar or analogous systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Artificial Intelligence (AREA)
- Radar, Positioning & Navigation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Electromagnetism (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Radar Systems Or Details Thereof (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于视觉和毫米波雷达的融合深度估计方法,属于计算机视觉技术领域。本发明包括两阶段的网络,第一阶段以图像和由毫米波雷达数据得到的稀疏深度图为输入,预测稠密的粗糙深度图,考虑到毫米波雷达数据的特性,采用稀疏前置映射模块提取其特征并完成数据之间的映射;第二阶段以粗糙深度图为输入,采用更为精简的网络结构,同时在该阶段中融合前一阶段特征,旨在预测细节更加完善的深度图;同时,本发明还以nuScenes数据集为基础,构建了一个新的深度数据集。本发明在单目图像中引入毫米波雷达的测量值作为先验知识,旨在利用毫米波雷达补充视觉信息,尤其是在夜晚、雨天等视觉特征退化严重的场景,从而提升深度估计结果的准确性。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于视觉和毫米波雷达的融合深度估计方法。
背景技术
单目深度估计是计算机视觉领域的热门研究课题之一,它从单一的RGB图像中估计出稠密的深度图,在自动驾驶、三维重建、机器人技术等领域都有着广泛的应用。但是深度估计是一个不适定问题,且单个图像本身并不能提供任何明确的深度信息。
目前常采用的方法是引入激光雷达数据,即深度补全任务从由激光雷达获得的稀疏的深度中重建出稠密的深度图。尽管激光雷达能提供更为稠密的深度观测,但其受不利天气(如雪、雨、雾等)影响较大,且其获取成本较高。相比于激光雷达,毫米波雷达在恶劣天气下非常强大,且能够探测到非常远的目标。又由于毫米波雷达在车辆中已经有了广泛的使用,如自适应巡航系统(ACC)和自动紧急制动系统(AEB)等,这更有利于深度估计模块后续在自动驾驶中部署。
早期的单目深度估计方法主要使用手动设计的特征。近年来,由于神经网络在图像分类、目标检测和语义分割等任务中表现出了强大的潜能,研究人员们将神经网络引入单目深度估计。Eigen等人首个使用卷积神经网络(CNN)进行单目深度估计,其采用两个阶段的网络,全局网络得到粗略的深度估计结果后,利用局部网络细化预测,并提出尺度不变平均平方误差作为损失函数。为了实现更准确的深度估计,一些方法引入注意力机制,将深度回归任务转化为分类任务,将语义分割任务与深度估计任务结合,或通过编解码器结构得到粗略的深度图后,利用条件随机场进行优化。上述方法都需要大量的深度标签数据来对模型进行训练,但由于获取精确的深度数据成本较高且获取难度较大。目前也有一些工作采用无监督的形式,以图像重建的形式训练网络。其通常以立体图像对的形式输入,从而用图像取代了难以获得的深度标签。
虽然仅基于图像数据的深度估计已经得到了比较可观的结果,激光雷达的引入仍然大幅减少了深度估计的误差。深度补全任务相比于单目深度估计具有额外的特点,如稀疏点的深度值应该尽量保持,稀疏点与其邻域之间的过度应该平滑等。为解决上述问题,许多研究尝试训练神经网络用于深度补全任务。这些方法可以粗略分为两类:1)构建网络预测出粗糙深度图后,利用局部的邻域对其优化。2)利用图像指导稠密深度图的恢复。本发明与深度补全最大的不同点在于深度补全任务的稀疏输入已经包含了比较充分的信息,因此可以将图像作为引导,从稀疏输入中重建出稠密深度。而由于毫米波雷达的输入过于稀疏,将其视为图像的辅助信息更为合适。
发明内容
本发明的目的是克服现有技术中存在的单目深度估计准确性低,且在视觉退化场景下失效的缺陷,提出了一种基于视觉和毫米波雷达的融合深度估计方法。在单目图像中引入毫米波雷达的测量值作为先验知识,旨在利用毫米波雷达补充视觉信息,尤其是在夜晚、雨天等视觉特征退化严重的场景,从而提升深度估计结果的准确性。
本发明采用的技术方案如下:
一种基于视觉和毫米波雷达的融合深度估计方法,其特征在于,包括以下步骤:
S1.将待估计图像和毫米波雷达数据输入稀疏-粗糙编码网络,分别提取特征后融合,得到第一融合特征图。
优选地,所述稀疏-粗糙编码网络采用双编码器结构,包括图像编码器和深度编码器;其中所述图像编码器为预先训练过并去除了全连接层的ResNet-34网络;所述深度编码器,包括稀疏前置映射模块和残差模块,通过稀疏前置映射模块提取毫米波雷达数据的初步特征,再采用残差模块进一步提取特征。
S2.将稀疏-粗糙编码网络得到的第一融合特征图输入稀疏-粗糙解码网络,解码得到粗糙深度图。
S3.通过特征融合模块将稀疏-粗糙解码网络中的解码特征融合到粗糙-精细编码网络;将粗糙深度图输入粗糙-精细编码网络,得到第二融合特征图。
优选地,所述粗糙-精细编码网络,采用单编码器结构。
优选地,所述特征融合模块,用于计算注意力向量,引导粗糙-精细编码网络特征的学习。
优选地,所述解码特征,由稀疏-粗糙解码网络中的残差模块产生。
S4.将粗糙-精细编码网络得到的第二融合特征图输入粗糙-精细解码网络,解码得到最后的预测深度图。
优选地,在训练过程中,采用基于二进制掩膜的滤波-插值方式构建标签数据进行监督;具体地,所述基于二进制掩膜的滤波-插值方式为:
a、聚集多帧激光雷达数据。
b、基于二进制掩膜的滤波算法滤除异常点,得到滤波后的激光雷达数据L'。具体地,首先使用稀疏掩膜mL屏蔽激光雷达数据L中的非观测点;然后在大小为n×m的区域S内求得观测点深度的均值;最后通过判断观测点深度与均值的差是否大于阈值来决定其是否为异常值。
基于二进制掩膜的滤波算法g的计算公式如下:
其中,M=n×m,n的取值范围为[30,50],m的取值范围为[40,60],ave(p,q)表示当前位置(p,q)处的均值,L(p,q)、L(x,y)分别表示当前位置(p,q)、(x,y)处的激光雷达数据值,ε为设置的阈值,S为大小为n×m的滤波器窗口,(x,y)表示滤波器窗口内激光雷达数据的位置,mL(x,y)为位置(x,y)处的二进制掩膜值。
c、以滤波后的激光雷达数据L'和稀疏掩膜mL为输入进行基于二进制掩膜的插值,得到稠密的深度标签数据。具体地,首先使用稀疏掩码1-mL屏蔽滤波后的激光雷达数据L'中的观测点,仅对非观测点进行插值;设定x和y方向上的步长分别为Tx和Ty,以设定的步长遍历屏蔽后的非观测点,以遍历到的非观测点为中心在大小为(a,b)的窗口内寻找最近邻,其中,a的取值范围为[15,25],b的取值范围为[2,5]。
二进制掩膜的插值算法f公式表示为:
其中,Nearest(p,q)表示在以(p,q)为中心在大小为(a,b)的窗口内搜寻最近邻观测点,L'(p,q)表示当前位置(p,q)处滤波后的激光雷达数据值。
d、随机采样,得到最终的深度标签数据。
本发明内容主要包含两个方面,分别为:基于毫米波雷达和单目视觉的联合深度估计网络以及基于二进制掩膜的滤波-插值的标签数据生成算法。
(1)基于毫米波雷达和单目视觉的联合深度估计网络
本发明设计了一个基于毫米波雷达和图像的端到端深度估计网络,整个网络由两个子网络组成。稀疏-粗糙子网络以图像和稀疏毫米波雷达数据为输入,预测出稠密但粗糙的深度图。在稀疏-粗糙子网络中为充分利用毫米波雷达数据,并使图像特征与毫米波雷达特征的融合更有效,采用双编码器-单一解码器的结构,即图像和毫米波雷达分别提取特征后融合,再通过解码器预测粗糙深度图。具体地,图像编码器为预先训练过的ResNet-34网络,且去除了全连接层。在深度编码器中,考虑到毫米波雷达数据的高度稀疏性,采用和图像相同的编码方式会其失效,因此采用稀疏前置映射模块提取其初步特征,然后采用层数较少的残差模块进一步提取特征。粗糙-精细子网络以稀疏-粗糙子网络预测的粗糙深度图为输入,采用单一编码器-解码器结构,并通过特征融合模块融合两阶段特征,旨在获得更精细的预测。
(2)基于二进制掩膜的滤波-插值的标签数据生成算法
考虑到原始激光雷达数据存在大量的非观测点,常规的滤波和插值算法并没有考虑数据的稀疏性,且深度估计任务中将激光雷达的观测点视为真值,常规算法会导致观测点数据的改动。因此,本发明提出一种观测点不变的基于二进制掩膜的滤波-插值算法,提升标签数据的稠密性。
相比与目前存在的毫米波雷达和激光的融合深度估计方法或单目深度估计方法,本发明的优势在于:1)本发明估计的深度准确性更高。2)本发明在夜晚或雨天等视觉退化的场景下也有较好的性能。3)本发明提出的基于二进制掩膜的滤波-插值算法可以延申应用于其他稀疏数据的处理。
附图说明
图1为本发明的网络结构示意图。
图2为实施例的深度标签处理结果示意图。
图3为实施例的稀疏前置映射模块示意图。
图4为实施例的特征融合模块示意图。
图5为本发明的训练和推导过程示意图。
图6为本发明的深度估计结果图。
具体实施方式
为了更好的说明本发明的技术方案及优势,以下结合具体实施例及说明书附图,对本发明作进一步地阐述。
一种基于视觉和毫米波雷达的融合深度估计方法,包括以下步骤:
S1.将待估计图像和毫米波雷达数据输入稀疏-粗糙编码网络,分别提取特征后融合,得到第一融合特征图。
所述稀疏-粗糙编码网络采用双编码器结构,包括图像编码器和深度编码器;其中所述图像编码器为预先训练过并去除了全连接层的ResNet-34网络;所述深度编码器,包括稀疏前置映射模块和残差模块,通过稀疏前置映射模块提取毫米波雷达数据的初步特征,再采用残差模块进一步提取特征。
如图3所示,稀疏前置映射模块通过5个堆叠的稀疏不变卷积来获得更稠密的特征图,并在其输出处双线性上采样到原分辨率后,对此处的输出施加监督。其中稀疏不变卷积采用逐渐减少的卷积核依次为7,5,3,3,1,前4个卷积的输出通道数为16,最后一个卷积的输出通道数为1,第1个卷积的步幅为2,其余卷积步幅都为1,用于得到更稠密的输出以便施加监督。最后,将第4个卷积的输出接入深度分支,进一步采用残差模块提取更高级的特征。
S2.将稀疏-粗糙编码网络得到的第一融合特征图输入稀疏-粗糙解码网络,解码得到粗糙深度图。
S3.通过特征融合模块将稀疏-粗糙解码网络中的解码特征融合到粗糙-精细编码网络;将粗糙深度图输入粗糙-精细编码网络,得到第二融合特征图。
所述粗糙-精细编码网络,采用单编码器结构。
所述特征融合模块,用于计算注意力向量,引导粗糙-精细编码网络特征的学习。该模块采用解码器-编码器特征融合的策略,将稀疏-粗糙阶段中的解码特征融合到粗糙-精细阶段中。具体来说,为了使稀疏-粗糙阶段中解码器特征适应于粗糙-精细阶段中编码器的特征,需减少解码器特征的通道数并细化特征。
如图4所示,特征融合模块首先通过一个1×1卷积层减少输入特征的通道数,然后采用残差连接的形式,用两个3×3卷积提取更精细的特征后与减少通道数后的特征相加,得到细化特征映射后与粗糙-精细编码网络的特征拼接,采用全局平均池化获得全局上下文信息,然后计算注意力向量来引导粗糙-精细编码网络特征的学习。
所述解码特征,由稀疏-粗糙解码网络中的残差模块产生。
S4.将粗糙-精细编码网络得到的特征输入粗糙-精细解码网络,解码得到最后的预测深度图。
在训练过程中采用基于二进制掩膜的滤波与插值方法,在多帧的激光雷达数据的基础上构建出了稠密且少噪声的深度标签。具体方式如下:
a、聚集多帧激光雷达数据。
b、基于二进制掩膜的滤波算法滤除异常点,得到滤波后的激光雷达数据L'。具体地,首先使用稀疏掩膜mL屏蔽激光雷达数据L中的非观测点;然后在大小为n×m的区域S内求得观测点深度的均值;最后通过判断观测点深度与均值的差是否大于阈值来决定其是否为异常值。
基于二进制掩膜的滤波算法g的计算公式如下:
其中,M=n×m,本实施例中n=40,m=50,ave(p,q)表示当前位置(p,q)处的均值,L(p,q)、L(x,y)分别表示当前位置(p,q)、(x,y)处的激光雷达数据值,ε=2为设置的阈值,S为大小为n×m的滤波器窗口,(x,y)表示滤波器窗口内激光雷达数据的位置,mL(x,y)为位置(x,y)处的二进制掩膜值。
c、以滤波后的激光雷达数据L'和稀疏掩膜mL为输入进行基于二进制掩膜的插值,得到稠密的深度标签数据。
具体地,首先使用稀疏掩码1-mL屏蔽滤波后的激光雷达数据L'中的观测点,仅对非观测点进行插值;设定x和y方向上的步长分别为Tx和Ty,以设定的步长遍历屏蔽后的非观测点,以遍历到的非观测点为中心在大小为(a,b)的窗口内寻找最近邻,本实施例中a=20,b=3。
二进制掩膜的插值算法f公式表示为:
其中,Nearest(p,q)表示在以(p,q)为中心搜寻最近邻观测点,L'(p,q)表示当前位置(p,q)处滤波后的激光雷达数据值。图2为采用基于二进制掩膜的滤波与插值方法处理激光雷达数据的示例。
d、由于在步骤c采用固定步长,为了破除插值后数据的规则性,使其更拟合与原始激光雷达的形式,对插值的点进行随机采样,得到最终的深度标签数据。
在训练过程中,对稀疏-粗糙子网络和粗糙-精细子网络输出的深度预测都施加监督,同时也对稀疏-粗糙阶段中的映射结果进行监督。具体地,整体损失函数Ltotal为:
Ltotal=λ1(Lcoarse+λ2Lmap+λ3Lsmooth)+(1-λ1)Lfinal (4)
其中λ1、λ2、λ3是根据经验设定的超参数,Lcoarse表示根据稀疏-粗糙子网络输出的粗糙深度图和深度标签计算得到的损失值,Lmap表示根据稀疏-粗糙子网络输出的映射结果和深度标签计算得到的损失值,Lfinal表示根据粗糙-精细子网络输出的最终深度图和深度标签计算得到的损失值。
Lcoarse、Lmap和Lfinal都使用L1 loss计算损失。由于深度标签并不存在于每个像素,因此只计算深度标签中有效像素的损失,表示为:
其中,d和分别表示深度标签和预测深度图。K表示深度标签d的有效深度集合,w为有效深度的数量,d(e,f)和分别表示深度标签和预测深度图中像素(e,f)处的深度值。进一步加入平滑项,由于深度不连续通常发生在交界处,因此使用图像梯度进行加权,平滑项Lsmooth定义为:
如图5所示,训练时采用基于二进制掩膜的滤波与插值方法中生成的深度标签数据作为真值进行监督。而在推导阶段,仅需要以图像和毫米波雷达为输入。
采用训练后的深度估计网络对场景进行深度估计,深度估计结果如图6所示,本发明中估计的最大深度值为120米。
训练和测试均采用nuScenes数据集,nuScenes数据集中不仅包含相机和激光雷达数据,也记录了毫米波雷达数据,是为数不多包含毫米波雷达数据的大型数据集。该数据集每个场景时长20秒,其中有40个关键帧,每帧图像的分辨率为1600×900。并且nuScenes中包含各种情况下的驾驶场景,如雨天、夜晚等,这也增加了在该数据集上进行深度估计的难度。本发明使用了850个场景,并将它们分为810个场景用于训练,40个场景用于评估。(训练集共计32564张图片,测试集共计1585张图片)。最终估计得到的深度图在所有像素点,即144万个像素点上都估计出最终深度,相比于初始毫米波雷达每帧探测的有效点数仅为40-50点,提升约两万倍的稠密度。本发明使用Pytorch部署网络,并且在NVIDIA GeForce GTXTITAN X上训练。批大小设置为4,使用Adam优化器其学习率为0.0005,并且每5个轮次学习率下降一半,参数设置为λ1=0.5,λ2=0.3,λ3=0.001。
本发明所得结果在所有像素位置处计算误差,结果如表1所示,可以看出本发明的各项指标都优于现有方案,且证明了毫米波雷达的引入能提高深度估计的性能。
表1深度估计结果
Claims (6)
1.一种基于视觉和毫米波雷达的融合深度估计方法,其特征在于,包括以下步骤:
S1.将待估计图像和毫米波雷达数据输入稀疏-粗糙编码网络,分别提取特征后融合,得到第一融合特征图;
S2.将稀疏-粗糙编码网络得到的第一融合特征图输入稀疏-粗糙解码网络,解码得到粗糙深度图;
S3.通过特征融合模块将稀疏-粗糙解码网络中的解码特征融合到粗糙-精细编码网络;将粗糙深度图输入粗糙-精细编码网络,得到第二融合特征图;
所述特征融合模块,用于计算注意力向量,引导粗糙-精细编码网络特征的学习;
所述解码特征,由稀疏-粗糙解码网络中的残差模块产生;
S4.将粗糙-精细编码网络得到的第二融合特征图输入粗糙-精细解码网络,解码得到最后的预测深度图。
2.如权利要求1所述的一种基于视觉和毫米波雷达的融合深度估计方法,其特征在于,所述稀疏-粗糙编码网络采用双编码器结构,包括图像编码器和深度编码器;其中所述图像编码器为预先训练过并去除了全连接层的ResNet-34网络;所述深度编码器,包括稀疏前置映射模块和残差模块,通过稀疏前置映射模块提取毫米波雷达数据的初步特征,再采用残差模块进一步提取特征。
3.如权利要求1或2所述的一种基于视觉和毫米波雷达的融合深度估计方法,其特征在于,所述稀疏-精细编码网络,采用单编码器结构。
4.如权利要求1或2所述的一种基于视觉和毫米波雷达的融合深度估计方法,其特征在于,在训练过程中,采用基于二进制掩膜的滤波-插值方式构建标签数据进行监督;所述基于二进制掩膜的滤波-插值方式为:
a、聚集多帧激光雷达数据;
b、基于二进制掩膜的滤波算法滤除异常点,得到滤波后的激光雷达数据L';
c、以滤波后的激光雷达数据L'和稀疏掩膜mL为输入进行基于二进制掩膜的插值,得到稠密的深度标签数据;
d、随机采样,得到最终的深度标签数据。
5.如权利要求4所述的一种基于视觉和毫米波雷达的融合深度估计方法,其特征在于,基于二进制掩膜的滤波算法滤除异常点的方法为:首先使用稀疏掩膜mL屏蔽激光雷达数据L中的非观测点;然后在大小为n×m的区域S内求得观测点深度的均值;最后通过判断观测点深度与均值的差是否大于阈值来决定其是否为异常值;
基于二进制掩膜的滤波算法g的计算公式如下:
其中,M=n×m,n的取值范围为[30,50],m的取值范围为[40,60],ave(p,q)表示当前位置(p,q)处的均值,L(p,q)、L(x,y)分别表示当前位置(p,q)、(x,y)处的激光雷达数据值,ε为设置的阈值,S为大小为n×m的滤波器窗口,(x,y)表示滤波器窗口内激光雷达数据的位置,mL(x,y)为位置(x,y)处的二进制掩膜值。
6.如权利要求4或5所述的一种基于视觉和毫米波雷达的融合深度估计方法,其特征在于,以滤波后的激光雷达数据L'和稀疏掩膜mL为输入进行基于二进制掩膜的插值的方法为:首先使用稀疏掩码1-mL屏蔽滤波后的激光雷达数据L'中的观测点,仅对非观测点进行插值;设定x和y方向上的步长分别为Tx和Ty,以设定的步长遍历屏蔽后的非观测点,以遍历到的非观测点为中心在大小为(a,b)的窗口内寻找最近邻,其中,a的取值范围为[15,25],b的取值范围为[2,5];
二进制掩膜的插值算法f公式表示为:
其中,Nearest(p,q)表示在以(p,q)为中心在大小为(a,b)的窗口内搜寻最近邻观测点,L'(p,q)表示当前位置(p,q)处滤波后的激光雷达数据值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210149240.2A CN114627351B (zh) | 2022-02-18 | 2022-02-18 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210149240.2A CN114627351B (zh) | 2022-02-18 | 2022-02-18 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114627351A true CN114627351A (zh) | 2022-06-14 |
CN114627351B CN114627351B (zh) | 2023-05-16 |
Family
ID=81899215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210149240.2A Active CN114627351B (zh) | 2022-02-18 | 2022-02-18 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627351B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461178A (zh) * | 2018-09-10 | 2019-03-12 | 中国科学院自动化研究所 | 一种融合稀疏已知标签的单目图像深度估计方法及装置 |
CN109685842A (zh) * | 2018-12-14 | 2019-04-26 | 电子科技大学 | 一种基于多尺度网络的稀疏深度稠密化方法 |
CN111079765A (zh) * | 2019-12-13 | 2020-04-28 | 电子科技大学 | 一种基于深度图的稀疏点云稠密化及路面去除方法 |
US20200273190A1 (en) * | 2018-03-14 | 2020-08-27 | Dalian University Of Technology | Method for 3d scene dense reconstruction based on monocular visual slam |
CN112085702A (zh) * | 2020-08-05 | 2020-12-15 | 杭州电子科技大学 | 一种基于关键区域稀疏深度的单目深度估计方法 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
CN112861729A (zh) * | 2021-02-08 | 2021-05-28 | 浙江大学 | 一种基于伪深度图引导的实时深度补全方法 |
CN113011380A (zh) * | 2021-04-09 | 2021-06-22 | 同济大学 | 一种毫米波雷达视觉前置融合装置及目标识别方法 |
CN113160068A (zh) * | 2021-02-23 | 2021-07-23 | 清华大学 | 基于图像的点云补全方法及系统 |
AU2021103300A4 (en) * | 2021-06-11 | 2021-08-05 | Nanjing University Of Aeronautics And Astronautics | Unsupervised Monocular Depth Estimation Method Based On Multi- Scale Unification |
CN113284173A (zh) * | 2021-04-20 | 2021-08-20 | 中国矿业大学 | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
CN113570658A (zh) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | 基于深度卷积网络的单目视频深度估计方法 |
CN114004754A (zh) * | 2021-09-13 | 2022-02-01 | 北京航空航天大学 | 一种基于深度学习的场景深度补全系统及方法 |
-
2022
- 2022-02-18 CN CN202210149240.2A patent/CN114627351B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200273190A1 (en) * | 2018-03-14 | 2020-08-27 | Dalian University Of Technology | Method for 3d scene dense reconstruction based on monocular visual slam |
CN109461178A (zh) * | 2018-09-10 | 2019-03-12 | 中国科学院自动化研究所 | 一种融合稀疏已知标签的单目图像深度估计方法及装置 |
CN109685842A (zh) * | 2018-12-14 | 2019-04-26 | 电子科技大学 | 一种基于多尺度网络的稀疏深度稠密化方法 |
CN111079765A (zh) * | 2019-12-13 | 2020-04-28 | 电子科技大学 | 一种基于深度图的稀疏点云稠密化及路面去除方法 |
CN112085702A (zh) * | 2020-08-05 | 2020-12-15 | 杭州电子科技大学 | 一种基于关键区域稀疏深度的单目深度估计方法 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
CN112861729A (zh) * | 2021-02-08 | 2021-05-28 | 浙江大学 | 一种基于伪深度图引导的实时深度补全方法 |
CN113160068A (zh) * | 2021-02-23 | 2021-07-23 | 清华大学 | 基于图像的点云补全方法及系统 |
CN113011380A (zh) * | 2021-04-09 | 2021-06-22 | 同济大学 | 一种毫米波雷达视觉前置融合装置及目标识别方法 |
CN113284173A (zh) * | 2021-04-20 | 2021-08-20 | 中国矿业大学 | 基于伪激光雷达的端到端的场景流、位姿联合学习方法 |
CN113570658A (zh) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | 基于深度卷积网络的单目视频深度估计方法 |
AU2021103300A4 (en) * | 2021-06-11 | 2021-08-05 | Nanjing University Of Aeronautics And Astronautics | Unsupervised Monocular Depth Estimation Method Based On Multi- Scale Unification |
CN114004754A (zh) * | 2021-09-13 | 2022-02-01 | 北京航空航天大学 | 一种基于深度学习的场景深度补全系统及方法 |
Non-Patent Citations (5)
Title |
---|
JUAN-TING LIN等: "Depth Estimation from Monocular Images and Sparse Radar Data" * |
MUHAMAMD ISHFAQ HUSSAIN等: "Rvmde: Radar validated monocular depth estimation for robotics" * |
杜晓宇: "基于毫米波雷达和视觉信息融合的车前目标检测算法研究" * |
翟强等: "智能汽车中人工智能算法应用及其安全综述" * |
贝子勒等: "一种基于深度学习的点云修复模型" * |
Also Published As
Publication number | Publication date |
---|---|
CN114627351B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696110B (zh) | 场景分割方法及系统 | |
CN111275627B (zh) | 一种基于雪模型和深度学习融合的图像去雪算法 | |
CN115457498A (zh) | 一种基于双注意力和密集连接的城市道路语义分割方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
Sun et al. | A convolutional network for joint deraining and dehazing from a single image for autonomous driving in rain | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN114693924A (zh) | 一种基于多模型融合的道路场景语义分割方法 | |
CN112949579A (zh) | 一种基于密集卷积块神经网络的目标融合检测系统及方法 | |
CN115601723A (zh) | 基于改进ResNet的夜间热红外图像语义分割增强方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN115984323A (zh) | 基于空频域均衡的双级融合rgbt跟踪算法 | |
CN112785517B (zh) | 一种基于高分辨率表征的图像去雾方法和装置 | |
Zhang et al. | A context-aware road extraction method for remote sensing imagery based on transformer network | |
CN114627351B (zh) | 一种基于视觉和毫米波雷达的融合深度估计方法 | |
Huang et al. | FFNet: A simple image dedusting network with feature fusion | |
CN110544216A (zh) | 基于深度学习的视频去雾系统 | |
Zheng et al. | Depth estimation via sparse radar prior and driving scene semantics | |
CN113378704B (zh) | 一种多目标检测方法、设备及存储介质 | |
Zhao et al. | SAU-Net: Monocular Depth Estimation Combining Multi-Scale Features and Attention Mechanisms | |
CN111242044B (zh) | 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法 | |
CN114565764A (zh) | 基于舰船实例分割的港口全景感知系统 | |
Yuyao et al. | The infrared-visible complementary recognition network based on context information | |
Wei et al. | Single Image Desnow Based on Vision Transformer and Conditional Generative Adversarial Network for Internet of Vehicles. | |
CN113284042A (zh) | 一种多路并行图像内容特征优化风格迁移方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |