CN112861729A - 一种基于伪深度图引导的实时深度补全方法 - Google Patents
一种基于伪深度图引导的实时深度补全方法 Download PDFInfo
- Publication number
- CN112861729A CN112861729A CN202110181196.9A CN202110181196A CN112861729A CN 112861729 A CN112861729 A CN 112861729A CN 202110181196 A CN202110181196 A CN 202110181196A CN 112861729 A CN112861729 A CN 112861729A
- Authority
- CN
- China
- Prior art keywords
- depth
- map
- depth map
- pseudo
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000000877 morphologic effect Effects 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 72
- 238000000605 extraction Methods 0.000 claims description 26
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000000280 densification Methods 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000012795 verification Methods 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000035515 penetration Effects 0.000 description 3
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- QNRATNLHPGXHMA-XZHTYLCXSA-N (r)-(6-ethoxyquinolin-4-yl)-[(2s,4s,5r)-5-ethyl-1-azabicyclo[2.2.2]octan-2-yl]methanol;hydrochloride Chemical group Cl.C([C@H]([C@H](C1)CC)C2)CN1[C@@H]2[C@H](O)C1=CC=NC2=CC=C(OCC)C=C21 QNRATNLHPGXHMA-XZHTYLCXSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G06T5/70—
Abstract
本发明公开了一种基于伪深度图引导的实时深度补全方法。RGB相机采集RGB图,激光雷达探测获得稀疏深度图;对稀疏深度图进行形态学操作的数据处理,生成伪深度图;建立神经网络结构,对伪深度图、RGB图和稀疏深度图处理得致密深度图;对神经网络结构训练,设置总损失函数优化监督,获得神经网络结构中所有参数的参数值;所有参数的参数值载入到神经网络结构中,将待测的单帧稀疏深度图输入到神经网络结构中,输出致密深度图。本发明有效提升深度补全的精度,能修正稀疏深度图的错误像素,提供了结构相似度监督,并且预测时回归深度残差图,可在高实时条件下同时获得高精度的深度补全结果。
Description
技术领域
本发明涉及无人车和机器人视觉感知技术领域的一种基于激光雷达和RGB相机的深度补全方法,特别是涉及了一种基于伪深度图引导的实时深度补全方法。
背景技术
深度补全是指将激光雷达收集的点云投射至RGB图像空间而成的稀疏深度图进行补全,从而得到与对应RGB图数据密度一致的致密深度图的技术。它是无人驾驶、自主机器人等复杂系统能够高效感知三维环境的的关键技术。激光雷达作为常见的距离传感器,采集的点云提供了精确的3D信息,但是原始激光雷达点云投射的深度图非常稀疏,相较于中等分辨率的致密图像,大约只有3%~4%的像素点上存在深度值。由于输入的是单通道的深度图和三通道的RGB图,因此可以直接利用2D卷积对其提取特征,通过多种融合方式对两者的特征进行融合预测,输出致密的深度图。
早期的传统深度补全算法利用压缩感知和轮廓变换等传统算法进行深度补全,但是精度很低,无法满足业界的基本要求。近年来深度学习的算法逐渐占据主流,有些算法如CFCNet、Sparse2Dense和DeepLiDAR网络利用在其他数据集上预训练的语义分割模型和法线估计模型来为自身的深度补全网络提供更多的信息;有些算法如CSPN和NLSPN引入更加复杂的空间扩散网络,在单阶段估计的致密深度图上进行迭代优化进行充分的后处理;有些算法如UberATG利用3D卷积来提取点云特征补充2D深度图的3D结构信息。但是这几类方法有不少缺陷:预训练模型的引入需要更多的数据标注,复杂的后处理网络会增加单帧深度图的运行时间,3D卷积的引入同样会带来运算资源的增加。
为了能够更好的提取深度图的特征,需要对输入的稀疏深度图进行膨胀得到伪深度图,带来的好处体现在:(1)输入深度图直接带有致密的深度值,在一定程度上提供了丰富的纹理信息,和RGB提供的信息可以进行更加充分天然的融合。(2)利用伪深度图可以对稀疏深度图中由于传感器位置偏差带来的错误像素进行修正置零。(3)利用对真实深度图进行膨胀得到的真实伪深度图,可以在损失监督时对图像梯度、结构相似性等一些更加细致的特征进行监督,来最大程度的约束输出深度图的结构信息。(4)类似两阶段2D检测中的anchor机制,输出深度图可以有伪深度图辅助,那么只需要回归残差值即可得到最终的致密深度图。因此伪深度图可以从多重角度来帮助致密深度图的回归,不仅可以提高深度补全的精度和鲁棒性,同时几乎不带来任何计算资源上的增加。本文设计了一种伪深度图引导的深度补全网络,通过形态学操作方法得到的伪深度图,在网络的深度预处理、网络输入、损失监督和深度预测模块上进行辅助引导,搭配结构简单、实时性强的网络结构,不需要任何其他数据集上的预训练和复杂的后处理,进行稀疏深度图的补全任务,达到高速、高精度的结果。
发明内容
为了解决背景技术中存在的问题,本发明的目的在于通过伪深度图的多角度引导来实现稀疏深度图的补全,适用于实时采集实时处理的高效感知系统。
本发明能有效克服单帧深度图的数据稀疏问题,对特征提取,损失监督,深度回归等都进行了辅助引导,使用的网络结构精简,计算代价小,实时性强。
本发明采用的技术方案的步骤如下:
1)通过RGB相机采集RGB图,RGB图是致密的,通过激光雷达探测采集获得目标场景的点云,点云投射到RGB相机的成像面上获得稀疏深度图,稀疏深度图是稀疏的;
本发明方法适用于自动车辆驾驶场景。
2)对稀疏深度图进行形态学操作的数据处理:包括多核多尺度膨胀、中值滤波等操作进行稀疏深度图致密化,生成伪深度图;
伪深度图中像素的深度均来自稀疏深度图中像素的原始深度值。
3)建立神经网络结构,通过神经网络结构实现致密深度图的补全,神经网络结构网络是基于伪深度图的深度图残差,通过伪深度图和稀疏深度图的综合处理与加和得到致密深度图,实现致密深度图的补全;
通过神经网络结构充分利用伪深度图,在深度预处理、网络输入、损失监督和深度回归等角度进行辅助引导,网络输出致密的深度图。
4)利用已知数据集对神经网络结构进行训练,设置总损失函数对已知数据集的每帧点云通过神经网络结构的回归进行优化监督,获得神经网络结构中所有参数的参数值;
5)将训练完成的所有参数的参数值载入到神经网络结构中,将待测的稀疏深度图、步骤2)生成的伪深度图和RGB图像输入到神经网络结构中,输出最后预测的致密深度图。
所述步骤2)中,具体包括依次进行的深度图像素值反转、小尺寸菱形核膨胀、小尺寸全满核膨胀、中尺寸全满核膨胀、大尺寸全满核膨胀、中值滤波、深度图像素值复原的操作。
其中,深度图像素值反转表示为Dinverted=100.0-Dinput,Dinverted表示深度图像素值反转后的图像,Dinput表示深度图像素值反转前的图像。
小、中、大尺寸的膨胀核大小分别为3×3、5×5以及7×7;其中3×3的菱形核Kdiamond和全满核Kfull分别为:
其他尺寸的菱形核Kdiamond和全满核Kfull同理设置。
中值滤波是用5*5的核进行深度图的去噪。
深度图像素值复原为通过再反转得到原始范围的像素值,表示为Doutput=100.0-Dinverted,Dinverted表示深度图像素值反转后的图像,Doutput表示深度图像素值复原后的图像。
通过上述操作,通过稀疏深度图得到致密化的伪深度图。伪深度图中所有像素都来自于稀疏深度图中的像素,实质是利用稀疏深度图的像素对其周围的空白像素进行扩散和填充,扩散和填充的像素并不一定完全对应真实点云空缺的深度值,因此为伪深度图。
所述步骤3)中,神经网络结构包括深度预处理模块、特征提取模块、特征融合模块和深度预测模块;
深度预处理模块利用伪深度图对稀疏深度图中的错误像素进行修正,特征提取模块中的深度图分支和RGB图像分支并行利用2D卷积对修正后的稀疏深度图提取两路特征,特征融合模块对两路特征进行后融合获得融合特征图,深度预测模块对两路后融合的融合特征图预测深度残差图,并将预测的深度残差图在相同像素上加到伪深度图上得到最终的致密深度图输出。
其中数据预处理模块为利用伪深度图对稀疏深度图中由于RGB相机和激光雷达这两个传感器安装位置的偏差导致投射错误的像素进行滤除。
深度预处理模块是利用伪深度图对稀疏深度图中的错误像素进行修正。数据采集过程中存在的相机和雷达的位置偏差,会有小部分像素存在深度穿透现象:远处的点云在投射过程中穿透了近处物体,从而在深度图像素上发生混乱,深度预处理模块输出修正后的稀疏深度图,及显示深度值存在与否的0-1掩码图。
所述的深度预处理模块是利用伪深度图对稀疏深度图进行筛选,具体处理过程为:对稀疏深度图上每一个有效像素与伪深度图上相同位置的像素的深度值比较作差,有效像素为稀疏深度图中深度值大于0的像素:
若差的绝对值大于预设的差值阈值μ,具体实施可以取为μ=10m,则认为该有效像素是错误像素,存在远处背景点云在投射过程中穿透近处物体点云的现象,将有效像素置零,从而将这些错误像素穿透像素筛去,只保留正确投射的像素,得到修正后的稀疏深度图,同时生成一个和稀疏深度图相同尺寸的根据当前像素是否存在深度值判断设置为0或1的0-1掩码图,0-1掩码图中将未置零、保留下来的有效像素均置为1,后续将修正后的稀疏深度图和0-1掩码图一起输入神经网络结构的深度预测模块;
若差的绝对值不大于预设的差值阈值μ,则不做处理。
所述的特征提取模块分为RGB分支网络和深度图分支网络,RGB分支网络和深度图分支网络结构相同,均由连续四个残差卷积模块连接构成,每个残差卷积模块均主要由两层卷积层构成,步长分别为1和2,每经过一个残差卷积模块均进行2倍下采样的处理,即通过一个残差卷积模块,特征图会变为原来的1/2大小;RGB图和三通道深度图分别输入到RGB分支网络和深度图分支网络处理,连续四个残差卷积模块分别输出获得下采样2倍、4倍、8倍、16倍的RGB特征图和深度特征图,每个残差卷积模块均输出各自的特征图,再加上原始的RGB图和三通道深度图,共计作为获得RGB图和三通道深度图各自的下采样1倍、2倍、4倍、8倍、16倍的RGB特征图和深度特征图;
其中,RGB分支网络的输入为相机的RGB三通道图像,深度图分支网络的输入为三通道深度图的三通道图像,三通道深度图的三通道图像是由伪深度图、修正后的稀疏深度图、0-1掩码图级联构成的三通道深度图。
特征提取模块具体处理过程为:
1.1、RGB特征提取分支
输入三通道的RGB图,由三个残差卷积模块构成,每个残差卷积模块包括两层卷积层,步长分别为1和2,每经过一个残差卷积模块,可以得到在输入特征图的基础下采样2倍。经过三个残差卷积模块,可以生成多个倍数的下采样特征图,具体实施中,第一层卷积层的卷积核个数为m,残差卷积模块的卷积层中的卷积核个数分别为2m,4m,8m,8m,生成的RGB特征图分辨率大小分别为:H×W,
1.2、深度图特征提取分支
所述的特征融合模块中,针对特征提取模块获得下采样不同倍的特征图从倍数最高的开始向倍数最低的依次按照以下进行处理;
S1、将从特征提取模块获得的初始相同下采样倍数的RGB特征图和深度特征图通过加和进行融合,获得一张初始下采样倍数的融合图;
S2、再对融合图进行上采样得到下采样下降一倍的下降融合图,下降融合图的下采样倍数和下一级下采样倍数相同,上采样的方式是双线性插值;
S3、将下降融合图与从特征提取模块获得的与下降融合图具有相同下采样倍数的RGB特征图和深度特征图通过加和进行共同融合,获得一张下一级下采样倍数的融合图;
S4、将下一级下采样倍数的融合图经过连续两层卷积层进行处理,获得卷积融合图;
S5、以S4的卷积融合图作为S2的融合图回到S2,不断重复S2~S4步骤对下采样16倍、8倍、4倍、2倍、1倍的特征图处理,最终获得下采样1倍的卷积融合图。
所述S3中,将下降融合图与从特征提取模块获得的与下降融合图具有相同下采样倍数的RGB特征图和深度特征图通过加和进行共同融合,具体是将下降融合图先和RGB特征图进行级联连接,即通道并行处理,再将级联连接后的图和深度特征图进行加和处理。
特征融合模块中包括连续两层卷积层,还通过连续两层卷积层来学习不同特征图之间的融合方式,对不带有带有深度特征图的而带有RGB特征图的融合的融合方式是通道并行,对带有深度特征图进行融合的融合方式是直接加和。
所述的特征融合模块的输入是深度图分支和RGB分支各自的5种分辨率的下采样特征图,具体处理过程为:
从最小的下采样16倍的特征图开始融合,将下采样16倍的两路RGB特征图和深度特征图相加得到融合图,然后对下采样16倍的融合图进行上采样得到下采样8倍的下降融合图;
将下采样8倍的下降融合图和下采样8倍的两路RGB特征图和深度特征图进行融合获得下采样8倍的融合图,将下采样8倍的融合图经过连续两个卷积层进行处理后获得下采样8倍的卷积融合图,再将下采样8倍的卷积融合图进行上采样得到下采样4倍的下降融合图;
以此类推处理获得下采样1倍的卷积融合图作为最终结果。
所述的深度预测模块中,将特征融合模块输出的融合特征图通过一个卷积层处理预测获得基于伪深度图相对真实深度图的深度残差图,将预测的深度残差图与步骤2)得到的伪深度图进行加和,得到致密深度图。
以步骤2)得到的伪深度图与真实深度图之间有效像素的之差作为深度残差图的监督真实值,有效像素为真实深度图中深度值大于0的像素,即激光雷达点云的精确深度值像素。将预测得到的深度图残差图重新与伪深度图进行逐像素的加和,得到最终的致密深度图并输出。
所述步骤4)中,总损失函数包括深度残差损失函数和结构相似性损失函数:
深度残差损失函数Ldepth计算为:
其中,D代表已知数据集提供的真实深度图,代表神经网络结构预测获得的深度残差图,代表由稀疏深度图经过步骤2)形态学操作得到的伪深度图,代表由真实深度图经过步骤2)相同的形态学操作得到的真实伪深度图:n为真实深度图中有效像素的总数量,i为真实深度图中有效像素的序数;
若不考虑在投射过程中筛去的小部分点云,真实深度图中有效像素的总数量n值等于初始点云中的点云个数。分析深度残差损失函数,网络最后的预测的输出为伪深度图与真实深度图之间的残差。
结构相似性损失函数Lstructural,计算为:
其中,表示深度图在图像坐标系x方向上的梯度图,表示深度图在图像坐标系y方向上的梯度图;Lgrad表示对致密深度图的梯度监督函数,LSSIM表示对致密深度图的结构相似性的监督函数,λ1是Lgrad的权重,λ2是LSSIM的权重,SSIM是结构相似度参数,主要由深度图的平均值、方差和标准差组成;
已知数据集本身的真实深度图缺乏致密信息,无法形成结构监督,在此基础上通过形态学操作得到的致密的真实伪深度图来监督预测深度图的结构信息。
最终获得总损失函数L,计算为:
L=α1Ldepth+α2Lstructural
式中,α1、α2分别为第一、第二可调因子。
所述的结构相似度参数计算为:
c1=(k1L)2,c2=(k2L)2
其中,μx是图像x的平均值,μy是图像y的平均值,是图像x的方差,是图像y的方差,σxy是x和y的协方差;c1、c2分别表示第一、第二稳定参数,L是像素值的动态范围,k1和k2表示第一和第二稳定参数的系数,具体实施中取k1=0.01,k2=0.03。
所述步骤5)中,将稀疏深度图经过神经网络结构,将待测场景的稀疏深度图、伪深度图和RGB图进行输入到通过步骤4)训练完成参数设置的神经网络结构中,输出最终预测的致密深度图。
本发明对输入的稀疏深度图通过形态学膨胀操作得到致密的伪深度图;设计神经网络结构的深度卷积神经网络,输入稀疏深度图、伪深度图以及RGB图像,通过2D卷积对三者进行特征提取与特征融合,并预测输出深度残差图;通过将该残差与伪深度图进行加和得到最终预测的致密深度图。
本发明通过多处引入伪深度图引导,来有效提升深度补全的精度:在网络输入阶段提供致密伪深度图引入纹理信息,并修正稀疏深度图的错误像素;在网络训练阶段提供结构相似性监督;在网络预测阶段仅预测基于伪深度图的深度残差图再进行加和;最后预测的致密深度图可以在高实时条件下同时获得高精度的深度补全结果。
本发明构建快速高效的基于伪深度图引导的深度补全网络本发明神经网络结构,输入稀疏深度图;将稀疏深度图经过形态学操作得到相同大小的伪深度图;将伪深度图,稀疏深度图和RGB图一起输入网络结构本发明神经网络结构中,依次经过神经网络结构的深度预处理模块、特征提取模块、特征融合模块和深度预测模块输出当前场景的致密深度图。深度预处理模块利用伪深度图对稀疏深度图进行修正,并输出0-1掩码图;特征提取模块分为深度图分支和RGB分支,利用卷积神经网络得到多个倍数的下采样特征图;特征融合模块对多个倍数的RGB下采样特征图和深度图下采样特征图进行融合,将特征图的尺寸恢复到原图,输出最终的融合深度图;深度预测模块利用最终的融合深度图经过两个卷积层预测深度残差图,并与伪深度图进行加和得到最终预测的致密深度图。针对网络结构中参数的参数学习,设置总损失函数对输出的深度残差图和致密深度图进行监督训练。
与背景技术相比,本发明具有的有益效果是:
(1)本发明能够有效地利用伪深度图在网络的输入、预处理、监督和输出等方面进行辅助引导。在输入阶段提供伪深度图提供与RGB图类似的致密纹理信息,在预处理阶段对稀疏深度图的错误像素进行修正,在监督阶段给出致密的结构相似性监督,在输出阶段给定致密的伪深度图,让网络输出的深度残差图更关注细致的结构信息。
(2)本发明利用伪深度图,其所有像素完全来自于实时采集的激光雷达点云和稀疏深度图本身,因此可以适应不同场景的深度变化,拥有更高的鲁棒性。
(3)本发明在简单有效的网络结构上进行设计,可以在不引入任何多余学习参数的情况下,提升预测的深度图的精度,同时不需要任何在其他数据集上进行预训练,没有复杂的后处理网络,相比于其他复杂的深度学习方法实时性强,精度高。
综合来说,本发明网络结构实时性强,精度高。网络的所有模块都可以容纳在端到端的卷积神经网络中,结构简洁;伪深度图所引入的致密纹理信息可以带来更加丰富的细节特征,让致密深度图的深度边界和结构更加清晰;同时伪深度图的辅助引导适用于室内室外等多个场景,鲁棒性强。结合伪深度图的引导,可以大大提高深度补全网络的精度。
附图说明
图1是本发明方法的流程图;
图2是针对KITTI Depth Completion的验证集上的部分稀疏深度图进行形态学操作后得到的伪深度图;
图3是本发明神经网络结构的整体网络框架;
图4是KITTI数据集采集过程中存在的激光雷达和图像安装位置偏移导致存在的像素穿透现象;
图5是本发明神经网络结构的特征提取、融合模块和深度预测模块的具体网络结构;
图6是将KITTI Depth Completion的验证集上的部分稀疏深度图实例输入训练好的神经网络结构,得到输出的致密深度图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
如图1的流程图所示,按照本发明完整方法实施的实施例及其实施过程如下:
以KITTI Depth Completion已知数据集作为已知数据集和补全稀疏深度图为例,来表述伪深度图引导的深度补全的思想和具体实施步骤。
实施例的稀疏深度图、以及真值深度图均来自KITTI Depth Completion已知数据集。
步骤一:利用KITTI Depth Completion已知数据集的划分,训练集包含138个序列,验证集包括13个序列中提取的1000张图片。训练集、验证集之间没有交集。训练集和验证集均有真值深度图。对训练集提供的稀疏深度图,执行步骤二到步骤四;
步骤二:对步骤一所述的训练集中的稀疏深度图实施发明之(1)。利用一系列形态学操作来生成伪深度图,形态学操作包括:深度图像素值反转Dinverted=100.0-Dinput;3×3菱形核膨胀;3×3全满核膨胀;5×5全满核膨胀;7×7全满核膨胀;中值滤波;深度图像素值复原Doutput=100.0-Dinverted操作。稀疏深度图和伪深度图如图2所示。
步骤三:对步骤一所述的稀疏深度图和步骤二所述的伪深度图实施发明之(2)。本发明神经网络结构的主要框架结构如图3所示。将稀疏深度图和伪深度图输入到神经网络结构的深度预处理模块,比较稀疏深度图和伪深度图的在有效像素上的相对大小,对相对差值大于阈值μ=10m的像素认为是由于相机和激光雷达安装位置的差异造成的错误穿透像素,安装差异的示例图可见图4。将错误像素置零,同时输出表示深度值是否存在的0-1掩码图。将级联伪深度图、修正后的稀疏深度图和0-1掩码图得到的三通道深度图输入到特征提取模块中的深度图分支,将RGB三通道图输入到特征提取模块的RGB分支。深度图分支和RGB分支均使用四个残差卷积模块,每个残差卷积模块包括两层卷积层,步长分别为1和2,每经过一个残差卷积模块,可以得到在输入特征图的基础下采样2倍。这里取m=64,输出的各个下采样倍数的RGB特征图和深度图特征图大小分别为256×1216×64,128×608×128,64×304×256,32×152×512和16×76×512。
将各尺寸的RGB特征图和深度图特征图输入到特征融合模块对两路特征图进行融合,首先对16倍下采样的分辨率大小为16×76×512的RGB特征图和深度图特征图进行加和,经过双线性上采样得到32×152×512的融合特征图,然后输入一个融合网络模块,输入为三个尺寸为32×152×512大小的:来自上采样的融合特征图、RGB特征图、深度图特征图。融合时先将融合特征图和RGB特征图进行通道级联,然后与深度图特征图直接相加。再经过两层卷积层来充分学习融合多个来源的特征。用相同的融合特征模块对8倍、4倍、2倍降采样的特征图进行融合,将融合特征图逐渐恢复到原图的尺寸,最后输出256×1216×64的融合特征图。
对特征融合模块输出的尺寸为256×1216×64的融合特征图输入到深度预测模块,经过两层卷积层,将通道数逐渐减少到1,将输出的256×1216×1的特征图作为回归的深度残差图。特征提取、融合模块和深度预测模块的具体网络结构如图5所示。
步骤四:对步骤三所述输出的回归深度残差图,利用训练集中含有的真值深度图,实施发明之(3)。设置总损失函数,对真值深度图中每个有效像素计算总损失,有效像素为存在深度值的像素。利用总损失函数对数据集中每帧输出的回归深度残差图计算总损失,训练神经网络结构中的各个参数以最小化总损失达到监督学习的效果。训练过程具体为:用NVIDIA RTX2080Ti GPU进行训练,使用Adam优化器,动量为0.9,批大小为4。设定初始学习率为0.001,衰减步长为10个轮次,衰减大小为0.5。训练40个轮次后,整个网络已经收敛。
步骤五:利用验证集和测试集中所有稀疏深度图,步骤四中已完成训练的所有参数的神经网络结构,实施发明之(4)。将训练完成的所有参数的参数值载入神经网络结构中,在验证集和测试集中的所有稀疏深度图作为输入对象,输入到神经网络结构中。
在验证集中,测试网络不同模块所带来的精度增益,评价参数为均方根误差RMSE,部分深度补全输出的致密深度图见图6,可以显示输出的致密深度图的深度回归情况,同时包括深度图的细节与结构。统计验证集共1000张稀疏深度图上的均方根误差如表1,本发明相较于简单的网络结构基线,可以在几乎不增加网络学习参数和模型大小的情况下,提高输出深度图的精度。
表1不同模块对于网络的均方根误差统计(单位:mm)
由上表1可以看出,利用伪深度图引导网络,依次加入修正稀疏深度图、加入结构损失,加入估计残差模块可以进一步提升原始网络结构的深度补全精度。最终的深度补全精度可以达到795.97mm,达到业界领先水平。
统计利用伪深度图对稀疏深度图进行预处理修正步骤的有效性,在KITTI2015数据集上进行测试。KITTI 2015数据集是KITTI Depth Completion已知数据集的制作参考之一,拥有由立体匹配方法得到的更加致密的真值深度图,是检验真值深度图等其他深度图质量的主要参考依据。对KITTI 2015数据集的稀疏深度图上实施发明之(4)中的深度预处理模块进行修正,得到的修正后的稀疏深度图与更加致密的真值深度图在有效像素上进行比较,结果如表2所示。其中错误像素的定义为大于3米并且与相对错误偏差>5%的像素。
表2修正前后的稀疏深度图的相关统计
由上表2可以看出,与原始提供的稀疏深度图相比较,提出的预处理修正算法可以利用伪深度图去掉大约1.25%的错误像素,平均误差MAE和均方根误差RMSE这两个参数在筛去了错误像素后都有很明显的提升,从而使得输入网络结构的稀疏深度图拥有更高的置信度,为网络带来更加精准的输入,也定量的说明了伪深度图的修正效果。
采用两块NVIDIA RTX2080Ti GPU进行训练和测试,利用神经网络结构对稀疏深度图进行补全,每次补全仅耗时20ms,所以本发明的计算代价很小,实时性高。
可以看出,采用本发明方法能够有效地利用伪深度图来辅助引导简单的网络结构,在深度补全网络的输入、预处理、损失监督和回归输出等方面进行信息补充,整体网络结构是端到端的网络,利用伪深度图的指导:修正稀疏深度图,进行结构相似性监督,回归深度残差图来进行稀疏深度图的深度补全任务,可以帮助网络更好的提取和融合RGB的纹理特征和深度图的结构特征。本发明具有精度高、计算代价小、实时性强的特点,相比于普通的网络结构框架,不需要在其他数据集上进行预训练以及复杂的后处理网络,在预测的致密深度图的均方差误差RMSE指标上有显著提升,同时保持50Hz的超高帧率,可以高效地应用于实时的自动驾驶感知系统中。
Claims (9)
1.一种基于伪深度图引导的实时深度补全方法,其特征在于,方法包括如下步骤:
1)通过RGB相机采集RGB图,通过激光雷达探测采集获得点云,点云投射到RGB相机的成像面上获得稀疏深度图;
2)对稀疏深度图进行形态学操作的数据处理:包括多核多尺度膨胀、中值滤波等操作进行稀疏深度图致密化,生成伪深度图;
3)建立神经网络结构,通过神经网络结构实现致密深度图的补全,通过伪深度图和稀疏深度图的综合处理与加和得到致密深度图;
4)利用已知数据集对神经网络结构进行训练,设置总损失函数对已知数据集的每帧点云通过神经网络结构的回归进行优化监督,获得神经网络结构中所有参数的参数值;
5)将训练完成的所有参数的参数值载入到神经网络结构中,将待测的稀疏深度图、步骤2)生成的伪深度图和RGB图像输入到神经网络结构中,输出最后预测的致密深度图。
2.根据权利要求1所述的基于伪深度图的实时深度补全方法,其特征在于:所述步骤2)中,具体包括依次进行的深度图像素值反转、小尺寸菱形核膨胀、小尺寸全满核膨胀、中尺寸全满核膨胀、大尺寸全满核膨胀、中值滤波、深度图像素值复原的操作。
3.根据权利要求1所述的一种基于伪深度图的实时深度补全方法,其特征在于:所述步骤3)中,神经网络结构包括深度预处理模块、特征提取模块、特征融合模块和深度预测模块;
深度预处理模块利用伪深度图对稀疏深度图中的错误像素进行修正,特征提取模块中的深度图分支和RGB图像分支并行利用2D卷积对修正后的稀疏深度图提取两路特征,特征融合模块对两路特征进行后融合获得融合特征图,深度预测模块对两路后融合的融合特征图预测深度残差图,并将预测的深度残差图加到伪深度图上得到最终的致密深度图输出。
4.根据权利要求3所述的一种基于伪深度图的实时深度补全方法,其特征在于:所述的深度预处理模块是利用伪深度图对稀疏深度图进行筛选,具体处理过程为:对稀疏深度图上每一个有效像素与伪深度图上相同位置的像素的深度值比较作差,有效像素为稀疏深度图中深度值大于0的像素:
若差的绝对值大于预设的差值阈值μ,则认为该有效像素是错误像素,将有效像素置零,得到修正后的稀疏深度图,同时生成一个和稀疏深度图相同尺寸的根据当前像素是否存在深度值判断设置为0或1的0-1掩码图,后续将修正后的稀疏深度图和0-1掩码图一起输入神经网络结构的深度预测模块;
若差的绝对值不大于预设的差值阈值μ,则不做处理。
5.根据权利要求3所述的一种基于伪深度图的实时深度补全方法,其特征在于:所述的特征提取模块分为RGB分支网络和深度图分支网络,RGB分支网络和深度图分支网络结构相同,均由连续四个残差卷积模块连接构成,每个残差卷积模块均主要由两层卷积层构成,每经过一个残差卷积模块均进行2倍下采样的处理;RGB图和三通道深度图分别输入到RGB分支网络和深度图分支网络处理,连续四个残差卷积模块分别输出获得下采样2倍、4倍、8倍、16倍的RGB特征图和深度特征图,每个残差卷积模块均输出各自的特征图,再加上原始的RGB图和三通道深度图,共计作为获得RGB图和三通道深度图各自的下采样1倍、2倍、4倍、8倍、16倍的RGB特征图和深度特征图;
所述的特征融合模块中,针对特征提取模块获得下采样不同倍的特征图从倍数最高的开始向倍数最低的依次按照以下进行处理;
S1、将从特征提取模块获得的初始相同下采样倍数的RGB特征图和深度特征图进行融合,获得一张初始下采样倍数的融合图;
S2、再对融合图进行上采样得到下采样下降一倍的下降融合图;
S3、将下降融合图与从特征提取模块获得的与下降融合图具有相同下采样倍数的RGB特征图和深度特征图进行共同融合,获得一张下一级下采样倍数的融合图;
S4、将下一级下采样倍数的融合图经过连续两层卷积层进行处理,获得卷积融合图;
S5、以S4的卷积融合图作为S2的融合图回到S2,不断重复S2~S4步骤处理,最终获得下采样1倍的卷积融合图。
6.根据权利要求5所述的一种基于伪深度图的实时深度补全方法,其特征在于:所述S3中,将下降融合图与从特征提取模块获得的与下降融合图具有相同下采样倍数的RGB特征图和深度特征图进行共同融合,具体是将下降融合图先和RGB特征图进行级联连接,再将级联连接后的图和深度特征图进行加和处理。
7.根据权利要求3所述的一种基于伪深度图的实时深度补全方法,其特征在于:所述的深度预测模块中,将特征融合模块输出的融合特征图通过一个卷积层处理预测获得基于伪深度图相对真实深度图的深度残差图,将预测的深度残差图与伪深度图进行加和,得到致密深度图。
8.根据权利要求1所述的一种基于伪深度图的实时深度补全方法,其特征在于:所述步骤4)中,总损失函数包括深度残差损失函数和结构相似性损失函数:
深度残差损失函数Ldepth计算为:
其中,D代表已知数据集提供的真实深度图,代表神经网络结构预测获得的深度残差图,代表由稀疏深度图经过步骤2)形态学操作得到的伪深度图,代表由真实深度图经过步骤2)相同的形态学操作得到的真实伪深度图:n为真实深度图中有效像素的总数量,i为真实深度图中有效像素的序数;
结构相似性损失函数Lstructural,计算为:
其中,表示深度图在图像坐标系x方向上的梯度图,表示深度图在图像坐标系y方向上的梯度图;Lgrad表示对致密深度图的梯度监督函数,LSSIM表示对致密深度图的结构相似性的监督函数,λ1是Lgrad的权重,λ2是LSSIM的权重,SSIM是结构相似度参数;
最终获得总损失函数L,计算为:
L=α1Ldepth+α2Lstructural
式中,α1、α2分别为第一、第二可调因子。
9.根据权利要求1所述的一种基于伪深度图的实时深度补全方法,其特征在于:所述步骤5)中,将稀疏深度图经过神经网络结构,将待测场景的稀疏深度图、伪深度图和RGB图进行输入到通过步骤4)训练完成参数设置的神经网络结构中,输出最终预测的致密深度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110181196.9A CN112861729B (zh) | 2021-02-08 | 2021-02-08 | 一种基于伪深度图引导的实时深度补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110181196.9A CN112861729B (zh) | 2021-02-08 | 2021-02-08 | 一种基于伪深度图引导的实时深度补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861729A true CN112861729A (zh) | 2021-05-28 |
CN112861729B CN112861729B (zh) | 2022-07-08 |
Family
ID=75988294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110181196.9A Active CN112861729B (zh) | 2021-02-08 | 2021-02-08 | 一种基于伪深度图引导的实时深度补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861729B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538278A (zh) * | 2021-07-16 | 2021-10-22 | 北京航空航天大学 | 基于可变形卷积的深度图补全方法 |
CN113763447A (zh) * | 2021-08-24 | 2021-12-07 | 北京的卢深视科技有限公司 | 深度图的补全方法、电子设备及存储介质 |
CN114627351A (zh) * | 2022-02-18 | 2022-06-14 | 电子科技大学 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
CN115272709A (zh) * | 2022-07-29 | 2022-11-01 | 梅卡曼德(北京)机器人科技有限公司 | 深度补全模型的训练方法、装置、设备、介质及产品 |
CN116152066A (zh) * | 2023-02-14 | 2023-05-23 | 苏州赫芯科技有限公司 | 一种元件完整形貌的点云检测方法、系统、设备及介质 |
WO2023103792A1 (zh) * | 2021-12-09 | 2023-06-15 | 华为技术有限公司 | 一种图像处理方法、装置及设备 |
CN116434316A (zh) * | 2023-04-14 | 2023-07-14 | 深圳市凌壹科技有限公司 | 一种基于x86工控主板的身份识别方法、装置、设备及介质 |
CN116468768A (zh) * | 2023-04-20 | 2023-07-21 | 南京航空航天大学 | 基于条件变分自编码器和几何引导的场景深度补全方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170353670A1 (en) * | 2016-06-07 | 2017-12-07 | Disney Enterprises, Inc. | Video segmentation from an uncalibrated camera array |
CN109325972A (zh) * | 2018-07-25 | 2019-02-12 | 深圳市商汤科技有限公司 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
CN109685842A (zh) * | 2018-12-14 | 2019-04-26 | 电子科技大学 | 一种基于多尺度网络的稀疏深度稠密化方法 |
CN110097589A (zh) * | 2019-04-29 | 2019-08-06 | 广东工业大学 | 一种应用于稀疏地图稠密化的深度补全方法 |
US20200410699A1 (en) * | 2018-03-13 | 2020-12-31 | Magic Leap, Inc. | Image-enhanced depth sensing using machine learning |
-
2021
- 2021-02-08 CN CN202110181196.9A patent/CN112861729B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170353670A1 (en) * | 2016-06-07 | 2017-12-07 | Disney Enterprises, Inc. | Video segmentation from an uncalibrated camera array |
US20200410699A1 (en) * | 2018-03-13 | 2020-12-31 | Magic Leap, Inc. | Image-enhanced depth sensing using machine learning |
CN109325972A (zh) * | 2018-07-25 | 2019-02-12 | 深圳市商汤科技有限公司 | 激光雷达稀疏深度图的处理方法、装置、设备及介质 |
CN109685842A (zh) * | 2018-12-14 | 2019-04-26 | 电子科技大学 | 一种基于多尺度网络的稀疏深度稠密化方法 |
CN110097589A (zh) * | 2019-04-29 | 2019-08-06 | 广东工业大学 | 一种应用于稀疏地图稠密化的深度补全方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538278A (zh) * | 2021-07-16 | 2021-10-22 | 北京航空航天大学 | 基于可变形卷积的深度图补全方法 |
CN113538278B (zh) * | 2021-07-16 | 2023-06-27 | 北京航空航天大学 | 基于可变形卷积的深度图补全方法 |
CN113763447A (zh) * | 2021-08-24 | 2021-12-07 | 北京的卢深视科技有限公司 | 深度图的补全方法、电子设备及存储介质 |
WO2023103792A1 (zh) * | 2021-12-09 | 2023-06-15 | 华为技术有限公司 | 一种图像处理方法、装置及设备 |
CN114627351A (zh) * | 2022-02-18 | 2022-06-14 | 电子科技大学 | 一种基于视觉和毫米波雷达的融合深度估计方法 |
CN115272709A (zh) * | 2022-07-29 | 2022-11-01 | 梅卡曼德(北京)机器人科技有限公司 | 深度补全模型的训练方法、装置、设备、介质及产品 |
CN115272709B (zh) * | 2022-07-29 | 2023-08-15 | 梅卡曼德(北京)机器人科技有限公司 | 深度补全模型的训练方法、装置、设备、介质 |
CN116152066A (zh) * | 2023-02-14 | 2023-05-23 | 苏州赫芯科技有限公司 | 一种元件完整形貌的点云检测方法、系统、设备及介质 |
CN116434316A (zh) * | 2023-04-14 | 2023-07-14 | 深圳市凌壹科技有限公司 | 一种基于x86工控主板的身份识别方法、装置、设备及介质 |
CN116434316B (zh) * | 2023-04-14 | 2023-11-14 | 深圳市凌壹科技有限公司 | 基于x86工控主板的身份识别方法、装置、设备及介质 |
CN116468768A (zh) * | 2023-04-20 | 2023-07-21 | 南京航空航天大学 | 基于条件变分自编码器和几何引导的场景深度补全方法 |
CN116468768B (zh) * | 2023-04-20 | 2023-10-17 | 南京航空航天大学 | 基于条件变分自编码器和几何引导的场景深度补全方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112861729B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861729B (zh) | 一种基于伪深度图引导的实时深度补全方法 | |
CN110188685B (zh) | 一种基于双注意力多尺度级联网络的目标计数方法及系统 | |
CN110490919B (zh) | 一种基于深度神经网络的单目视觉的深度估计方法 | |
CN109472819B (zh) | 一种基于级联几何上下文神经网络的双目视差估计方法 | |
CN109784283B (zh) | 基于场景识别任务下的遥感图像目标提取方法 | |
CN112801169B (zh) | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 | |
CN112597985B (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN110659664B (zh) | 一种基于ssd的高精度识别小物体的方法 | |
CN111524135A (zh) | 基于图像增强的输电线路细小金具缺陷检测方法及系统 | |
CN114692509B (zh) | 基于多阶段退化神经网络的强噪声单光子三维重建方法 | |
CN110246171B (zh) | 一种实时单目视频深度估计方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN113822284A (zh) | 一种基于边界注意力的rgbd图像语义分割方法 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN117274515A (zh) | 基于ORB和NeRF映射的视觉SLAM方法及系统 | |
CN112581626B (zh) | 一种基于非参数化和多注意力机制的复杂曲面测量系统 | |
CN116703885A (zh) | 一种基于Swin Transformer的表面缺陷检测方法及系统 | |
CN116229217A (zh) | 一种应用于复杂环境下的红外目标检测方法 | |
CN116310757A (zh) | 一种多任务实时烟雾检测方法 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN114821192A (zh) | 一种结合语义信息的遥感影像高程预测方法 | |
CN115294182A (zh) | 一种基于双交叉注意力机制的高精度立体匹配方法 | |
CN111968168B (zh) | 多分支可调节瓶颈卷积模块以及端对端的立体匹配网络 | |
CN115205710B (zh) | 一种结合色彩校正的双时相遥感图像变化检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |