CN111104532A

CN111104532A - 一种基于双流网络的rgbd图像联合恢复方法

Info

Publication number: CN111104532A
Application number: CN201911400820.9A
Authority: CN
Inventors: 许勇; 祝叶; 李芃
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-05
Anticipated expiration: 2039-12-30
Also published as: CN111104532B

Abstract

本发明涉及一种基于双流网络的RGBD图像联合恢复方法，包括：S1，获取用于训练和测试的RGBD图像数据库；S2，将RGBD图像数据库划分为训练数据集及测试数据集，并对RGBD图像数据库的RGBD图像进行预处理；S3，根据训练数据集训练双流卷积网络模型，保存训练完成的网络参数；S4，将测试数据集输入双流卷积网络模型进行联合恢复，并测试恢复程度。本发明能够同时对退化的RGB图像及其对应的深度图像进行修复，符合实际应用场景。

Description

一种基于双流网络的RGBD图像联合恢复方法

技术领域

本发明涉及数字图像处理技术领域，特别是涉及一种基于双流网络的RGBD图像联合恢复方法。

背景技术

在信息化与大数据的时代，生活的方方面面都会使用到图像信息，人们可以便捷地通过手机，相机等传感器设备获取身边的数字图像，从而进行传播及分享。近年来，随着视觉传感器的发展及人工智能等先进技术的发展，人们对于描述传播身边视觉信息的要求不再满足于通用的2D信息，丰富多彩，表达能力更佳的3D视觉信息逐渐进入人们的生活。通常3D视觉信息由类似MicrosoftKinect等RGBD数据传感器获取并进一步处理建模得到，然而目前RGBD数据传感器处理能力远不及目前的2D相机处理能力，获取RGBD图像数据需要高昂的设备费用，并且得到的深度图像数据存在噪声、部分缺失等退化问题，与获取的深度图像信息类似，采样得到的RGB图像也会存在一定的退化问题。

由于RGBD图像传感器获取的RGB图像及深度图像数据均存在一定程度的退化，其中深度图像信息的退化较为严重，而RGB图像的退化具有普遍性，因此研发一种可靠且有效的RGBD图像处理算法变得越来越重要。目前的研究主要可以分为两类，第一类，研究者抛开了RGB图像数据，仅考虑深度图像的信息并通过一些深度图像信息的先验或约束对其深度图像信息进行处理及恢复，该类方法通常采用滤波、能量方程、马尔科夫随机场等方法。另一类方法则采用传感器获得的RGB图像信息作为深度图像信息的指导，通过提取RGB图像信息的边等信息来指导深度图像信息的恢复，该类方法即可通过传统的优化方法进行解决，也可以通过深度卷积网络进行端到端训练，并且该类方法能够取得较好恢复效果。可以看出目前大多数研究者对于RGBD图像数据进行处理均建立在只有深度图像存在缺失、噪声等退化，并认为传感器获取的RGB数据是相对而言清晰高分辨率的。然而认为传感器获取的RGB图像信息不需要处理的假设在实际问题中并不存在。在实际情况中，往往随同深度图像信息一起获取的RGB图像信息存在噪声、模糊等普遍的退化，例如无人车的三维数据传感器获得的RGB图像就存在较为普遍的运动模糊及噪声，而一些廉价的RGBD传感器所获取的RGB图像则普遍分辨率较低。因此，行业急需研发一种同时对RGBD传感器获得的深度图像及RGB图像数据进行处理及恢复的方法。

发明内容

针对现有技术存在的对于RGBD图像数据进行处理均建立在只有深度图像存在缺失、噪声等退化的问题，本发明提供一种基于双流网络的RGBD图像联合恢复方法。

本申请的具体方案如下：

一种基于双流网络的RGBD图像联合恢复方法，包括：

S1，获取用于训练和测试的RGBD图像数据库；

S2，将RGBD图像数据库划分为训练数据集及测试数据集，并对RGBD图像数据库的RGBD图像进行预处理，作为网络输入；

S3，根据训练数据集训练双流卷积网络模型，保存训练完成的网络参数；

S4，将测试数据集输入双流卷积网络模型进行联合恢复，并测试恢复程度。

优选地，所述RGBD图像数据库在无人驾驶场景下的大规模RGBD图像数据集KITTIdepth competition数据集。

优选地，步骤S2包括：将RGBD图像数据库划分为训练数据集及测试数据集，将训练数据集中的深度图像及对应RGB图像作为一组；对每组的RGB图像及深度图像进行裁剪为合适尺寸，并进行归一化处理。

优选地，根据训练数据集训练双流卷积网络模型的步骤包括：

S31，搭建双流卷积网络模型的网络结构：

S3101，输入深度图像D和RGB图像C；

S3102，将深度图像D输入归一化卷积层Nconv1，卷积核大小为3，步长为1，保持分辨率不变，再通过非线性激活得到特征图X1；

S3103，将特征图X1输入归一化卷积层Nconv2，卷积核大小为3，步长为1，保持分辨率不变，再通过非线性激活，得到特征图X2；

S3104，将特征图X2输入卷积层conv3，卷积核大小为3，步长为1，通过激活层得到特征图X3；

S3105，将特征图X3输入卷积层conv4，卷积核大小为3，步长为1，通过激活层得到特征图X4，特征图X4为深度图像提取得到的特征；

S3106，将RGB图像C输入ResBlock1，卷积核大小为3，步长为1，保持分辨率不变得到特征图Y1；

S3107，将特征图Y1输入ResBlock2，卷积核大小为3，步长为1，保持分辨率不变，得到特征图Y2；

S3108，将特征图Y2输入卷积层ResBlock3，卷积核大小为3，步长为1，保持分辨率不变得到特征图Y3；

S3109，将特征图Y3输入卷积层conv4，卷积核大小为3，步长为1，通过激活层得到特征图Y4，特征图Y4为RGB图像提取得到的特征；

S3110，将特征图X4和特征图Y4叠加输入到一个卷积组，该卷积组包含3个卷积核大小为3，步长为1的卷积层及对应的激活层，得到融合特征图F；

S3111，将融合特征F和深度图像特征X4叠加到一个卷积组，该卷积组包含4个卷积核大小为3，步长为1的卷积层及对应的激活层，得到复原的深度图像D’；

S3112，将融合特征F、深度图像特征X4和RGB图像特征Y4叠加到一个ResBlock组，该ResBlock组包含3个卷积核大小为3，步长为1的ResBlock及1个卷积核大小为3，步长为1的卷积层和对应激活层，得到复原的RGB图像C’；

S32，构造损失函数：

其中对于深度图像，采用了带有mask的内容损失函数和TV损失函数，其中内容损失函数定义如下：

其中i代表每个像素的下标，

代表(D′(i)-D_g(i))的二范数的平方，M·N表示深度图像的大小，D_g是真实清晰的深度图像，D′是网络生成的深度图像，若mask_i＝1成立，表示真实深度图像在该点存在值；若mask_i＝1不成立，表示真实图像在该点不存在像素值，则在计算损失函数时不需要计入在内；深度图像的TV损失函数定义为如下：

其中

和

分别表示深度图像上在x放心及y方向上的梯度，M·N表示深度图像的大小；

对于RGB图像，采用了内容损失函数，其中内容损失函数定义如下：

其中i代表每个像素的下标，

代表(C′(i)-C_g(i))的二范数的平方，M·N表示深度图像的大小，C_g是真实清晰的RGB图像，C′是网络生成的RGB图像；

此外为了更好的使生成的RGB图像保有清晰的边及减少生成RGB图像的响铃效应，设计了一种简单的梯度损失函数，其定义如下：

其中

和

分别表示RGB图像上在x放心及y方向上的梯度，

代表

的二范数的平方，

代表

的二范数的平方，M·N表示深度图像的大小，C_g是真实清晰的RGB图像，C′是网络生成的RGB图像；

此外还为RGB图像引入对抗损失函数，该对抗损失函数由RGB图像的生成对抗训练机制提供，其定义如下：

其中Dis表示判别器，Ger表示RGB图像生成器，C表示输入的RGB图像，D表示输入的深度图像，C_g表示真实清晰的RGB图像；

综上，双流卷积网络模型采用的损失函数构造如下：

L＝L_dcont+λ₁L_dTV+λ₂L_ccont+λ₃L_cgrad+λ₄L_cadv

其中λ₁＝λ₃＝1.1，λ₂＝1，λ₄＝0.55为各损失函数间的权重。

优选地，步骤S4包括：在测试数据集中读取RGBD图像数据，按照训练数据集的预处理方法对RGBD图像数据进行预处理；将测试数据集的RGBD图像数据输入加载的双流卷积网络模型中，得到恢复的RGB图像和深度图像；将恢复的RGB图像与真实清晰RGB图像进行对比，计算衡量指标PSNR；将恢复的深度图像与真实深度图像进行对比，计算衡量指标RMSE。

与现有技术相比，本发明具有如下有益效果：

本发明针对RGBD图像联合恢复问题，提出一种基于双流网络的RGBD图像联合恢复方法，该方法能够同时对退化的RGB图像及其对应的深度图像进行修复，符合实际应用场景。

本发明提出的端到端的双流卷积网络模型，能够有效地编码深度图像特征和RGB特征，并且能够有效地将两者进行融合，从而学习到两者间的相关性，有助于两者图像的恢复。

本发明相比于传统优化算法具有更低的时间复杂度，本发明训练好的网络模型能够很快地得到恢复结果，而传统方法需要进行迭代优化，需要更高的时间复杂度。

本发明相比于单独对深度图像进行修复的算法，能够得到更好地RGB图像，可以更便捷地应用在实际问题场景。

附图说明

图1为本发明的基于双流网络的RGBD图像联合恢复方法的一示意性流程图。

图2为本发明的基于双流网络的RGBD图像联合恢复方法的另一示意性流程图。

图3为本发明的双流卷积网络模型的双流卷积网络结构图。

图4为本发明的ResBlock结构图。

图5为本发明的RGB图像判别网络结构图。

图6为本发明的RGB图像生成对抗训练机制图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参见图1-2、一种基于双流网络的RGBD图像联合恢复方法，包括：

S1，获取用于训练和测试的RGBD图像数据库；所述RGBD图像数据库在无人驾驶场景下的大规模RGBD图像数据集KITTI depth competition数据集。

S2，将RGBD图像数据库划分为训练数据集及测试数据集，并对RGBD图像数据库的RGBD图像进行预处理，作为网络输入；在本实施例，步骤S2包括：将RGBD图像数据库划分为训练数据集及测试数据集，将训练数据集中的深度图像及对应RGB图像作为一组；对每组的RGB图像及深度图像进行裁剪为合适尺寸，并进行归一化处理。

在本实施例，根据训练数据集训练双流卷积网络模型的步骤包括：

S31，搭建双流卷积网络模型的网络结构，参见图3：

S3101，输入深度图像D和RGB图像C；

S3106，将RGB图像C输入ResBlock1(ResBlock具体结构如图4所示)，卷积核大小为3，步长为1，保持分辨率不变得到特征图Y1；

S32，构造损失函数：

为了完成双流卷积网络模型的端到端学习，让网络能够有效地学习到退化RGBD图像到清晰RGBD图像的映射，针对RGB图像及深度图像，分别构建了适合其图像总体特征及内容的损失函数。

其中对于深度图像，由于深度图像的真实清晰图像也存在一定的像素缺失，为了更好地衡量网络的复原效果及有效的训练网络模型，采用了带有mask的内容损失函数和TV损失函数，其中内容损失函数定义如下：

其中i代表每个像素的下标，

其中

和

类似的，对于RGB图像，为了准确地衡量和有效训练网络模型，采用了内容损失函数，其中内容损失函数定义如下：

其中i代表每个像素的下标，

其中

和

分别表示RGB图像上在x放心及y方向上的梯度，

代表

的二范数的平方，

代表

此外还为RGB图像引入对抗损失函数，该对抗损失函数由RGB图像的生成对抗训练机制提供，生成对抗训练机制如图6所示，由生成器即本发明的双流网络，和判别器如图5所示组成，生成器通过给定的输入条件生成RGB图像，判别器则判断输入的RGB图像是真实RGB图像还是生成的RGB图像，整个的生成对抗训练函数定义如下：

综上，双流卷积网络模型采用的损失函数构造如下：

L＝L_dcont+λ₁L_dTV+λ₂L_ccont+λ₃L_cgrad+λ₄L_cadv

在本实施例，步骤S4包括：在测试数据集中读取RGBD图像数据，按照训练数据集的预处理方法对RGBD图像数据进行预处理；将测试数据集的RGBD图像数据输入加载的双流卷积网络模型中，得到恢复的RGB图像和深度图像；将恢复的RGB图像与真实清晰RGB图像进行对比，计算衡量指标PSNR；将恢复的深度图像与真实深度图像进行对比，计算衡量指标RMSE。

本方案的基于双流网络的RGBD图像联合恢复方法可以运用到如下领域：

无人驾驶，无人驾驶领域的大多数算法需要高质量的RGBD图像作为数据输入；

三维重建，更准确的深度图像数据及RGB信息有助于三维重建的准确性；

虚拟现实，通过深度图像信息来建立虚拟的三维模型。

本方案利用深度图像与其对应的RGB图像之间的潜在关系，将深度图像恢复与RGB图像处理同时进行。一方面可以利用深度图像的边界特征来指导RGB图像的处理，另一方面可以根据RGB图像的特征来指导深度图像修复。本方案是通过有监督的学习进行端到端的RGBD图像联合恢复，所以本方案需要一个较大数量的待训练的RGBD数据集。

本方案在训练数据集上选择了目前公开的，具有较大数据规模的KITTI depthcompetition数据集，该数据集源自真实的无人驾驶数据。本方案训练中，训练样本包含退化的RGBD图像及其对应的清晰RGBD图像作为训练对。本方案的网络没有采用其他数据集进行预训练，KITTI数据的数量及场景能够保证网络学习到RGBD图像恢复的端到端映射。

本方案提出一种双流形式的深度卷积网络模型，从而有效实现RGBD图像的联合恢复。该网络模型的主要任务就是通过分别对输入的RGB图像和深度图像进行特征提取，然后融合两者的特征，最后分别从融合的特征中恢复出复原的RGB图像和深度图像。通过有效的网络训练，该双流网络模型能够学习到一个从退化的RGB和深度图像的输入到真实的RGB和深度图像的映射，每当向网络输入一个退化的RGBD图像，就能得到一个恢复后的RGBD图像。

本方案在深度图像这一分流上采用目前较为流行的全卷积网络作为整体框架，通过多层卷积网络提取深度图像的特征，之后与RGB图像特征进行叠加通过网络进行特征处理，之后将处理得到的融合特征与深度图像特征及RGB特征叠加通过卷积网络进行复原。特别地，本方案在深度图像分支开始的卷积采用归一化卷积，该卷积更适用于深度图像。

本方案在RGB图像这一分流上采用基于ResBlock的卷积神经网络，通过skip-connection有效地将融合前的特征传递到融合后网络进行图像复原，对于RGB图像的恢复分支，本方案仅采用了深度图像与RGB图像的融合特征及RGB图像特征就可以得到一个很好的恢复效果。

本方案还设计了一个简单的判别网络来对RGB图像恢复进行对抗学习，使得双流网络模型生成的RGB图像更接近真实图像。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。