CN113393511B

CN113393511B - 一种基于多阶段彩色图像引导的道路场景深度补全方法

Info

Publication number: CN113393511B
Application number: CN202110510868.6A
Authority: CN
Inventors: 杨宇翔; 曹旗; 倪志浩; 高明裕; 董哲康; 黄继业
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2024-02-02
Anticipated expiration: 2041-05-11
Also published as: CN113393511A

Abstract

本发明涉及一种基于多阶段彩色图像引导的道路场景深度补全方法。激光雷达得到的道路场景深度图像非常稀疏，缺失的深度信息带来了极大的不确定性，仍难以满足实际应用的需求。因此如何发掘场景稠密彩色图像和稀疏深度图像的内在约束关系，完成稀疏深度图像的高质量补全是目前的研究热点。本发明多阶段彩色图像引导的深度图像补全网络由“彩色引导”和“精细化补全”两个阶段构成，将“彩色引导”阶段重建的特征融合到“精细化补全”阶段中实现了多阶段的特征引导，可以有效实现深度图像的高质量补全。高质量的道路场景深度感知对道路目标检测，自动驾驶智能汽车等应用都是至关重要的，因此本发明具有重要的理论价值和实际意义。

Description

一种基于多阶段彩色图像引导的道路场景深度补全方法

技术领域

本发明属于机器视觉领域，具体涉及一种基于多阶段彩色图像引导的道路场景深度补全方法。

背景技术

高质量的道路场景深度感知对道路目标检测，自动驾驶智能汽车等应用都是至关重要的。激光雷达可以获得高精度的道路场景深度图像，适合道路场景的应用，但是激光雷达得到的深度图像非常稀疏，缺失的深度信息带来了极大的不确定性，仍难以满足后续实际应用的需求。如何发掘场景稠密彩色图像和稀疏深度图像的内在约束关系，完成稀疏深度图像的高质量补全是目前的研究热点，具有重要的理论价值和实际意义。

发明内容

鉴于上述背景技术的不足，本发明的目的在于提供一种基于多阶段彩色图像引导的道路场景深度图像补全方法。本发明深度补全由“彩色引导”和“精细化补全”两个阶段构成，该方法具体步骤如下：

步骤(1)：利用激光雷达和彩色相机获取道路场景稀疏深度图像I_sparse和稠密彩色图像I_color，分辨率为M×N，其中M和N分别为图像的高和宽。

步骤(2)：构建基于卷积神经网络的彩色图像引导重建分支：

(a)首先将I_sparse∈R^B×1×H×W和I_color∈R^B×3×H×W沿通道维度进行拼接，得到四通道的输入图像I_concat∈R^B×4×H×W，I_concat∈R^B×4×H×W经过一层卷积核大小为3×3卷积层后得到初始的特征图其中B表示网络的Batch size。

(b)初始的特征图经过三级下采样操作来提取特征得到输出记为I_down∈R^B ^{×128×1/8H×1/8W}，记输入的特征图为X_d-1，每级下采样操作的具体步骤如下：

R_{down_conv}＝ω_3×3*X_d-1 (1)

R_{down_maxpool}＝MaxPool(X_d-1) (2)

R_{down_concat}＝<R_{down_conv},R_{down_maxpool}> (3)

R_down＝σ(bn(R_{down_concat})) (4)

R_{down_split_1}，R_{down_split_2}＝Split(R_down) (5)

R_regroup＝Regroup(R_regroup) (11)

R_transpose＝Transpose(R_regroup) (12)

R_out＝Regroup(R_transpose) (13)

其中<·>代表拼接操作，bn(·)代表Batch Normalization操作，σ(·)代表RectifiedLinear Unit激活层，dropout(·)代表Dropout操作；ω代表卷积核权重,上标用来区分卷积层的顺序，下标为卷积核大小；

首先特征图X_d-1∈R^B×C×H×W经过一层卷积核大小为3×3，步长为2的卷积层和一次空间维度的max-pooled操作之后得到特征图R_{down_conv}∈R^{B×C×1/2H×1/2W}和R_{down_maxpool}∈R^B ^{×C×1/2H×1/2W}。然后将特征图R_{down_conv}和R_{down_maxpool}拼接在一起进行BatchNormalization操作和非线性激活操作得到下采样模块的输出R_down∈R^{B×2C×1/2H×1/2W}，再将特征图R_down∈R^B ^{×2C×1/2H×1/2W}沿着通道维度进行切片操作得到R_{down_split_1}∈R^{B×C×1/2H×1/2W}和R_{down_split_2}∈R^B ^{×C×1/2H×1/2W}。将R_{down_split_1}和R_{down_split_2}分别输入到不同尺度的卷积核中得到和/>再将特征图/>和/>沿通道维度拼接在一起并与R_down进行加法操作得到R_{res_out}∈R^{B×2C×1/2H×1/2W}。最后将R_{res_out}进行通道混洗操作，通道混洗操作包含两次通道重组Regroup操作和一次维度交换Transpose操作，得到输出R_out∈R^{B×2C×1/2H×1/2W}，R_out即为每级下采样操作的输出。

(c)将经过三级下采样操作得到的输出I_down∈R^{B×128×1/8H×1/8W}经过三级上采样操作，分别得到I_{up_1}∈R^{B×64×1/4H×1/4W}，I_{up_2}∈R^{B×32×1/2H×1/2W}，I_{up_3}∈R^B×16×H×W，三级上采样操作每级都由反卷积操作和通道感知模块组成，记输入为X_m-1，每级上采样操作的步骤如下：

R_up＝σ(bn(convtranspose(X_m-1))) (14)

M_channel＝Sigmod(bn(R_{up_concat})) (19)

R_out＝R_up*M_channel (20)

首先将特征图X_m-1∈R^{B×2C×1/2H×1/2W}，经过反卷积、Batch Normalization操作和非线性激活Rectified Linear Unit操作得到特征图R_up∈R^B×C×H×W。然后将特征图R_up输入两层3×3卷积层提取特征得到R_{up_m}∈R^B×C×H×W，接着R_{up_m}沿着空间维度进行max-pooled和average-pooled得到和/>将/>和/>拼接在一起输入1×1卷积层实现降维，接着使用一层1×1卷积层和非线性激活Rectified Linear Unit操作得到R_{up_concat}∈R^B×C×1×1，最后使用Batch Normalization操作将R_{up_concat}进行归一化操作并输入Sigomd函数进行非线性变换得到空间感知模块权重M_channel∈R^B×C×1×1，将R_up与M_channel进行乘法操作获得上采样后的输出记为R_out∈R^B×C×H×W，按上述方式I_down∈R^{B×128×1/8H×1/8W}经过三级上采样操作，分别得到I_{up_1}∈R^{B×64×1/4H×1/4W}，I_{up_2}∈R^{B×32×1/2H×1/2W}，I_{up_3}∈R^B×16×H×W。

步骤(3)：构建基于卷积神经网络的深度图像精细化补全分支：

①首先I_sparse∈R^B×1×H×W经过一层卷积核大小为3×3的卷积层得到初始特征图，记为深度图像精细化补全分支的下采样结构同样包含三级下采样，分别将步骤(2)彩色图像引导重建分支上采样阶段的I_{up_3}∈R^B×16×H×W、I_{up_2}∈R^{B×32×1/2H×1/2W}、I_{up_1}∈R^B ^{×64×1/4H×1/4W}和步骤(2)彩色图像引导重建分支下采样的输出I_down∈R^{B×128×1/8H×1/8W}拼接至深度图像精细化补全分支对应的下采样阶段中，具体的操作如下：

R₂＝Down(σ(bn(ω_1×1(<R₁,I_{up_2}>))) (19)

R₃＝Down(σ(bn(ω_1×1(<R₂,I_{up_1}>))) (20)

R₄＝σ(bn(ω_1×1(<R₃,I_down>)) (21)

其中，R₁∈R^{B×32×1/2H×1/2W}、R₂∈R^{B×64×1/4H×1/4W}、R₃∈R^{B×128×1/8H×1/8W}为深度图像精细化补全分支每级下采样的结果；Down表示一级下采样结构，具体的操作如步骤(2)中公式(1)～公式(13)所定义的过程，R₄∈R^{B×128×1/8H×1/8W}为深度图像精细化补全分支下采样的输出。

②构建深度图像精细化补全分支上采样结构，深度图像精细化补全分支上采样结构和步骤(2)中彩色图像引导重建分支上采样结构相同，由三级上采样操作组成，R₄经过三级上采样得到深度图像精细化补全分支上采样结构的输出I_refine∈R^B×16×H×W，将I_refine输入一层3×3卷积层得到深度图像精细化补全分支的稠密补全输出I_{out_D}∈R^B×1×H×W，I_{out_D}即为最终补全重建的高质量道路场景稠密深度图像。

本发明的有益效果：本发明设计了一种新型的多阶段彩色图像引导的道路深度图像补全方法。本发明的网络由“彩色引导”和“精细化补全”两个阶段构成，将“彩色引导”阶段重建的特征融合到“精细化补全”阶段中，从而实现多阶段的特征引导，可以有效实现深度图像的高质量补全。

具体实施方式：

步骤(2)：构建基于卷积神经网络的彩色图像引导重建分支：

R_{down_conv}＝ω_3×3*X_d-1 (1)

R_{down_maxpool}＝MaxPool(X_d-1) (2)

R_{down_concat}＝<R_{down_conv},R_{down_maxpool}> (3)

R_down＝σ(bn(R_{down_concat})) (4)

R_{down_split_1}，R_{down_split_2}＝Split(R_down) (5)

R_regroup＝Regroup(R_regroup) (11)

R_transpose＝Transpose(R_regroup) (12)

R_out＝Regroup(R_transpose) (13)

其中<·>代表拼接操作，bn(·)代表Batch Normalization操作，σ(·)代表Rectified Linear Unit激活层，dropout(·)代表Dropout操作；ω代表卷积核权重,上标用来区分卷积层的顺序，下标为卷积核大小；

R_up＝σ(bn(convtranspose(X_m-1))) (14)

M_channel＝Sigmod(bn(R_{up_concat})) (19)

R_out＝R_up*M_channel (20)

R₂＝Down(σ(bn(ω_1×1(<R₁,I_{up_2}>))) (19)

R₃＝Down(σ(bn(ω_1×1(<R₂,I_{up_1}>))) (20)

R₄＝σ(bn(ω_1×1(<R₃,I_down>)) (21)

Claims

1.一种基于多阶段彩色图像引导的道路场景深度补全方法，其特征在于，该方法的具体步骤是：

步骤(1)：获取道路场景稀疏深度图像I_sparse和稠密彩色图像I_color，分辨率为M×N，其中M和N分别为图像的高和宽；

步骤(2)：构建基于卷积神经网络的彩色图像引导重建分支：

(a)首先将I_sparse∈R^B×1×H×W和I_color∈R^B×3×H×W沿通道维度进行拼接，得到四通道的输入图像I_concat∈R^B×4×H×W，I_concat∈R^B×4×H×W经过一层卷积核大小为3×3卷积层后得到初始的特征图其中B表示网络的Batchsize；

R_{down_conv}＝ω_3×3*X_d-1 (1)

R_{down_maxpool}＝MaxPool(X_d-1) (2)

R_{down_concat}＝<R_{down_conv},R_{down_maxpool}> (3)

R_down＝σ(bn(R_{down_concat})) (4)

R_{down_split_1}，R_{down_split_2}＝Split(R_down) (5)

R_regroup＝Regroup(R_regroup) (11)

R_transpose＝Transpose(R_regroup) (12)

R_out＝Regroup(R_transpose) (13)

首先特征图X_d-1∈R^B×C×H×W经过一层卷积核大小为3×3，步长为2的卷积层和一次空间维度的max-pooled操作之后得到特征图R_{down_conv}∈R^{B×C×1/2H×1/2W}和R_{down_maxpool}∈R^{B×C×1/2H×1/2W}；然后将特征图R_{down_conv}和R_{down_maxpool}拼接在一起进行Batch Normalization操作和非线性激活操作得到下采样模块的输出R_down∈R^{B×2C×1/2H×1/2W}，再将特征图R_down∈R^{B×2C×1/2H×1/2W}沿着通道维度进行切片操作得到R_{down_split_1}∈R^{B×C×1/2H×1/2W}和R_{down_split_2}∈R^{B×C×1/2H×1/2W}；将R_{down_split_1}和R_{down_split_2}分别输入到不同尺度的卷积核中得到和再将特征图/>和/>沿通道维度拼接在一起并与R_down进行加法操作得到R_{res_out}∈R^{B×2C×1/2H×1/2W}；最后将R_{res_out}进行通道混洗操作，通道混洗操作包含两次通道重组Regroup操作和一次维度交换Transpose操作，得到输出R_out∈R^{B×2C×1/2H×1/2W}，R_out即为每级下采样操作的输出；

R_up＝σ(bn(convtranspose(X_m-1))) (14)

M_channel＝Sigmod(bn(R_{up_concat})) (19)

R_out＝R_up*M_channel (20)

首先将特征图X_m-1∈R^{B×2C×1/2H×1/2W}，经过反卷积、Batch Normalization操作和非线性激活Rectified Linear Unit操作得到特征图R_up∈R^B×C×H×W；然后将特征图R_up输入两层3×3卷积层提取特征得到R_{up_m}∈R^B×C×H×W，接着R_{up_m}沿着空间维度进行max-pooled和average-pooled得到和/>将/>和/>拼接在一起输入1×1卷积层实现降维，接着使用一层1×1卷积层和非线性激活RectifiedLinearUnit操作得到R_{up_concat}∈R^B×C×1×1，最后使用BatchNormalization操作将R_{up_concat}进行归一化操作并输入Sigomd函数进行非线性变换得到空间感知模块权重M_channel∈R^B×C×1×1，将R_up与M_channel进行乘法操作获得上采样后的输出记为R_out∈R^B×C×H×W，按上述方式I_down∈R^{B×128×1/8H×1/8W}经过三级上采样操作，分别得到I_{up_1}∈R^{B×64×1/4H×1/4W}，I_{up_2}∈R^{B×32×1/2H×1/2W}，I_{up_3}∈R^B×16×H×W；

R₂＝Down(σ(bn(ω_1×1(<R₁,I_{up_2}>))) (19)

R₃＝Down(σ(bn(ω_1×1(<R₂,I_{up_1}>))) (20)

R₄＝σ(bn(ω_1×1(<R₃,I_down>)) (21)

其中，R₁∈R^{B×32×1/2H×1/2W}、R₂∈R^{B×64×1/4H×1/4W}、R₃∈R^{B×128×1/8H×1/8W}为深度图像精细化补全分支每级下采样的结果；Down表示一级下采样结构，具体的操作如步骤(2)中公式(1)～公式(13)所定义的过程，R₄∈R^{B×128×1/8H×1/8W}为深度图像精细化补全分支下采样的输出；

2.根据权利要求1所述的一种基于多阶段彩色图像引导的道路场景深度补全方法，其特征在于：所述的路场景稀疏深度图像I_sparse和稠密彩色图像I_color通过激光雷达和彩色相机获取。