CN109978786A

CN109978786A - 一种基于卷积神经网络的Kinect深度图修复方法

Info

Publication number: CN109978786A
Application number: CN201910220680.0A
Authority: CN
Inventors: 刘波; 赵建英
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-07-05
Anticipated expiration: 2039-03-22
Also published as: CN109978786B

Abstract

本发明涉及一种基于卷积神经网络的Kinect深度图修复方法，用于解决Kinect的深度图存在大面积空洞的问题，包括模型训练和深度图修复两个阶段。模型训练阶段构建了一个输入RGB图，输出深度图的单目深度估计模型，使用屏蔽掉空洞的Kinect深度图作为监督信息，训练出一个单目深度估计模型。修复阶段是把深度图对应的RGB图输入模型得到估计的深度图，并使用它填充原始深度图中的空洞，最后进行中值滤波得到最终修复结果。本方法在修复大面积的空洞的时候优势明显，本方法用“深度”补“深度”的解决思路决定了修复精度主要取决于深度估计模型本身的精度，这里如果换用其它效果更好的深度估计模型会达到更好的效果。

Description

一种基于卷积神经网络的Kinect深度图修复方法

技术领域

本发明属于深度学习及机器视觉领域，涉及一种基于卷积神经网络的Kinect深度图像空洞修复技术。这在现实场景中具有非常广泛的应用，例如游戏中的人机交互，机器人导航系统等。

背景技术

Kinect是微软公司推出的一款体感设备，它可以同时获取到场景的深度数据和彩色数据，最初其用于微软Xbox的游戏外设，用于完成人机交互和动作跟踪识别等功能。但是其应用场景不仅仅只有这里，随着国内外学者对Kinect设备的深入研究，发现它还可以应用在场景的三维重建，机器人导航系统等领域，并且取得了良好的研究成果。

Kinect深度传感器成像原理是：结构光发射器投射出特定编码结构的红外光斑，红外摄像头捕获图像，通过光斑的形变计算场景的深度。由于Kinect发射的红外信号可能被场景中的物体吸收，以及其他物体遮挡返回的红外信号等原因，会造成深度图像空洞。根据形成原因不同，空洞可以分类以下几类：

(1)由于边沿遮挡产生的空洞，这种空洞的特点是长条状，出现在物体的前景和背景的边界部分。缺失的部分深度的梯度变化比较剧烈。传统算法主要对这种情况处理效果较好。

(2)由于场景种的物体亮度太高，对深度摄像头的干扰较大，一般场景中的灯会出现在这种情况，空洞的形状和灯亮度高的地方形状一致。

(3)由于场景种物体表面反射率太低，导致深度传感器不能采集到光斑信息，这种空洞一般出现在深颜色的物体上。

(4)镜子，玻璃这种强反射物体。红外发生了反射。深度图会出现非常杂乱的光斑状空洞。这是最不好处理的一种情况。

传统的插值和图像滤波算法主要针对第一种的物体边沿的深度缺失现象效果比较好，可是针对大面积的空洞，由于空洞部分的深度缺失导致修补时的参考信息非常少，因此修复不自然。

随着近些年来深度学习的广泛应用，特别是卷积神经网络在图像领域取得巨大成功后，人们意识到CNN可以捕获一些隐式的特征，因此可以把卷积神经网络用在图片的深度估计上。受到此启发，可以把卷积神经网络用在空洞修复上，用重建出的深度信息去修补空洞。

发明内容

为了解决Kinect存在的第二种和第三种大面积空洞问题，本发明提出一种基于卷积神经网络的空洞修复方法。

本发明使用一个CNN来模拟复杂的非线性变换，去拟合RGB图和深度图的对应关系。然后利用根据RGB图拟合出来的深度图去填补原始深度图的空洞。

具体技术方案如下：

该技术方案主要分为两个阶段：模型训练阶段和深度图修复阶段。

模型训练阶段包括以下步骤：

步骤1：预处理训练数据：将Kinect的深度图和RGB图进行对齐操作，生成对齐后的RGB图和深度图；生成掩码图，图中包括有效信息和无效信息两部分，有效信息代表Kinect深度图的深度有效部位，无效信息代表Kinect深度图的深度无效部位，且与深度图宽度高度相等，通道数为1；其中对齐后的RGB图作为卷积神经网络训练数据，对齐后的深度图和掩码图作为网络的监督信息；

步骤2：构建待训练的卷积神经网络模型，神经网络的输入为数据集中对齐后的RGB图，卷积神经网络包括：特征提取模块，深度恢复模块，深度图优化卷积模块；

特征提取模块包括5个串联的特征提取卷积块，每个特征提取卷积块由三个卷积层和一个池化层构成，其中，最后一个特征提取卷积块是最后一个卷积块，不需要对特征图的宽高进行缩小所以没有池化层，特征提取模块用于对输入图片进行不同尺度的特征提取；特征提取模块的输入为步骤1所述的对齐后的RGB图，输出为每个特征提取卷积块最后一层卷积层的特征图；

深度恢复模块包括5个深度恢复卷积块，第1个深度恢复卷积块由3个卷积层构成，第2-5个卷积块由一个上采样层和三个卷积层构成，第1个深度恢复卷积块的输入为第五个特征提取卷积块的输出，第2-5个深度恢复卷积块的上采样层的输入分别为上一个深度恢复卷积块的输出，在每个上采样层之后加入跳跃连接结构，即将上采样层的结果和与之输出特征图形状相同的对应特征提取卷积块的输出进行通道合并再送入卷积层的计算，连续经过5个串联的深度恢复模块，对特征图进行4次上采样，得到与输入图片宽度和高度相同的深度图；深度恢复卷积模块最终输出的结果为粗糙的深度图；

深度图优化卷积模块包括四个连续的卷积层，作用是对深度恢复模块所生成的粗糙的深度图进行细节上的优化；模块的输入为对齐后的RGB图和深度恢复卷积模块输出的粗糙的深度图在通道维度进行合并后的特征图，模块的输出结果为最终的深度预测结果；

步骤3：构建训练模型需要的损失函数模块：所述损失函数模块用于优化模型输出的深度图和监督信息的差值；模型在训练深度恢复模块和深度图优化卷积模块时候采用的损失函数有所不同，其中深度恢复模块采用的损失函数公式为：

其中n为深度图像素数目，y为深度恢复模块估计出的深度图结果，y^*为Kinect对齐后深度图，y_i为y中第i个像素的值，为y^*中第i个像素的值，mask_i为掩码图中第i个像素的值；

深度图优化卷积模块使用的损失函数公式为：

E_final＝D(y,y^*)+α*Gx(gradXy,gradXy^*)+β*Gy(gradYy,gradYy^*)，

其中D(y,y^*)与上文中的意义相同，y为深度图优化卷积模块输出的深度图，y^*为Kinect对齐后深度图，gradXy为y在x方向上的梯度，gradXy^*为y^*在x方向上的梯度，gradYy为y在y方向上的梯度，gradYy^*为y^*在y方向上的梯度，

Gx(gradXy,gradXy^*)和Gy(gradYy,gradYy^*)分别为y与y^*在x方向和y方向上的梯度值误差，α和β是超参数，α和β的取值范围为[0.05,0.2]，

其中，

其中，gradXy_i为y_i在x方向上的梯度，gradXy^* _i为y^* _i在x方向上的梯度，gradYy_i为y_i在y方向上的梯度，gradYy^* _i为y^* _i在y方向上的梯度。

步骤4：使用随机梯度下降法迭代训练所述卷积神经网络，先训练特征提取模块和深度恢复模块，使网络达到收敛，保存参数模型，然后再加载保存的参数模型并冻结前两个模块参数只训练深度图优化卷积模块直到模型再次收敛并且保存模型参数；

深度图修复阶段包括以下步骤：

步骤1：加载模型训练阶段训练好的最终的神经网络模型，输入待修复漏洞的对应的RGB图像得到模型预测的深度图；

步骤2：根据模型训练阶段步骤1中同样的办法求出待修复的深度图的掩码图，依据掩码图中标记的深度无效位置，对无效位置的像素使用所述模型预测的深度图的对应位置的深度值进行填充得到填充完成的深度图，具体用公式表示如下：

其中Depth_fill为填充后的深度图，Depth_Kinect为待修复漏洞的深度图，Depth′为最终的神经网络模型估计深度图，mask为用于标记待修复漏洞的深度图中有效深度值的掩码图矩阵，mat₁为与mask相同形状的全1矩阵，为哈达玛积；

步骤3：对填补的深度图进行滤波处理。由于对大块空洞进行填补的位置在空洞边缘的位置深度变化较大，填补的深度图和原始的深度图拼接不够自然，可能会出现毛刺噪点等噪声，所以需要对填补之后的深度图进行滤波处理。先对图像进行滑动窗口中值滤波，中值滤波是一种非线性的滤波，主要是用于对实值离散信号的滤波，基本思想是把图像中的某一点值用其邻域中各点值的中值代替，其定义为：对一维序列x₁,x₂,x₃,…,x_n,把n个数据按大小排列x_i1≤x_i2≤x_i3≤…≤x_in,则

对于图像是二维信号，对图像进行二维滑动窗口滤波，最终的输出得结果可以表示为

Depth_final＝med(Depth_fill)

Depth_fina即为本深度图修复方法的最终结果。

有益效果

本文的Kinect深度图修复方法在修复大面积的深度图空洞的时候优势明显，而且这个方法针对大面积空洞，用“深度”补“深度”的解决思路决定了修复精度主要取决于深度估计模型本身的精度，这里如果换用其它效果更好的深度估计模型会达到更好的效果。

附图说明

图1本发明方法流程图

图2本方法使用的卷积神经网络结构图

图3(a)-(d)原始RGB图

图4(a)-(d)待修复深度图

图5(a)-(d)本文模型深度估计结果

图6(a)-(d)深度图填充效果

图7(a)-(d)滤波后的最终效果

具体实施方式

以下将结合附图和实施例对本发明作进一步详细说明。本发明以英伟达GPU作为计算平台，使用pytorch深度学习框架作为CNN框架。训练神经网络用的是NYU Depth V2数据集经过对齐和屏蔽空洞的数据，大约使用了15万张RGB图和深度图。

具体实施步骤如下：

训练阶段：

步骤1：数据集准备和预处理。

我们使用NYUdepth公开数据集训练我们的神经网络，该数据包括近四百个室内场景，包括卧室，客厅，书房，办公室，图书馆，咖啡厅等等，完整的数据集大约有428G，由于数据集本身太相当庞大，本文只使用了160个场景大约15万张图片，其中挑选了12万张用作训练。在训练之前需要对数据集进行预处理，需要对RGB图和深度图进行对齐操作。然后生成掩码图，深度有效的地方设置为1，深度缺失的地方设置为0，作用是屏蔽掉深度缺失的部分使之不参与训练。

步骤2：构建待训练的卷积神经网络模型。

我们使用如图2所示的网络结构，其中网络层名称依次为：特征提取卷积块1-5，卷积块1-4的结构是由三个卷积层和一个池化层构成的，最后一个特征提取卷积块是最后一个卷积块，不需要对特征图的宽高进行缩小所以没有池化层。图像恢复卷积块1-5，卷积块2-5是由三个卷积层和一个上采样层构成，卷积块1没有上采样层。在输出相同形状的feature map的对应卷积块有skip connect结构，把特征提取的结果和图像恢复的featuremap的channels维度拼接到一起，目的是充分利用各尺度的特征，改善深度估计效果。最后是深度图优化卷积模块包括4个连续的卷积层，作用是对深度恢复模块所生成的粗糙的深度图进行细节上的优化；

使用前5个卷积块按1-5的顺序对RGB图像进行特征提取。然后图像恢复卷积块按1-5顺序对提取到的特征进行恢复和上采样，最后得到和RGB图像一样大小，通道为1的深度图。网络的每一个卷积层使用的卷积核大小为：3*3，特征提取卷积块1-5得输出的featuremap的通道数分别为：64，128，256，512，1024。图像恢复卷积块1-5的输出通道分别为512，256，128，64，1。经过skip connect之后的feature map的channels维度翻倍，通道合并层使用pytorch框架提供的torch.cat()操作。每个特征提取卷积块的最后一层是池化层，经过池化层，feature map的宽和高变为原来的一半，通道数不变。每个图像恢复卷积块的最后一层是上采样层，经过上采样层，feature map的宽和高变为原来的2倍，通道数不变。

最后经过深度图优化卷积模块，模块的输入为对齐后的RGB图和深度恢复卷积模块输出的粗糙的深度图在通道维度进行合并后的特征图，所以输入通道数为4。每个卷积层使用的卷积核大小为：3*3，输出通道数分别为128，128，128，1。模块的输出结果为最终的深度预测结果。

步骤3：构建待训练的卷积神经网络模型。

模型在训练深度恢复模块和深度图优化卷积模块时候采用的损失函数有所不同，其中深度恢复模块采用的损失函数公式为：

深度图优化卷积模块使用的损失函数公式为：

E_final＝D(y,y^*)+α*Gx(gradXy,gradXy^*)+β*Gy(gradYy,gradYy^*)，

Gx(gradXy,gradXy^*)和Gy(gradYy,gradYy^*)分别为y与y^*在x方向和y方向上的梯度值误差，α和β是超参数，α和β取值0.1可以得到不错的效果。

步骤4：使用随机梯度下降法迭代训练所述卷积神经网络，先训练特征提取模块和深度恢复模块，使网络达到收敛，保存参数模型，然后再加载保存的参数模型并冻结前两个模块参数只训练深度图优化卷积模块直到模型再次收敛并且保存模型参数。在训练卷积神经网络时，每次读入20个图像对作为一个批次。神经网络权值初始化方法为随机初始化，使用SGD以0.9的动量和0.0005的权重衰减对网络进行优化。把RGB三个通道的减去对应的均值(104，117，123)，然后除以255使左右图像像素值分布在区间[-1,1]之间。在损失函数E_final＝D(y,y^*)+α*Gx(gradXy,gradXy^*)+β*Gy(gradYy,gradYy^*)中设置超参数α和β取值0.1。训练的停止条件为将所有数据迭代20epoch。

深度图修复阶段：

步骤2：根据模型训练阶段步骤1中同样的办法求出待修复的深度图的掩码图，依据掩码图中标记的深度无效位置，对无效位置的像素使用所述模型预测的深度图的对应位置的深度值进行填充得到填充完成的深度图；

步骤3：对填补的深度图进行滤波处理。

对填充之后的深度值分别进行中值滤波，用来修复拼接处的噪点，然后进行均值滤波，使拼接处更平滑，改善拼接的效果。中值滤波窗口大小参数设置为5。

具体实施步骤叙述完毕,效果如图3所示。下面给出本发明的一个测试结果。实验环境为：GTX1070 GPU，CUDA8.0版本，使用NYUdepth数据集进行测试并与现有的滤波修复方法进行比较。用以下评估方法评估本发明的结果，以下指标越小越好：

其中，d_i表示修复后的深度值，真实的深度值，T深度图像像素位置索引，|T|表示深度图像像素点的数量。RMS即表示的修复后的值和真实值的均方根误差；logRMS表示修复后的值和真实值在log域的均方根误差；absRelative表示修复后的值和真实值的绝对值的相对平均值，sqRelative表示修复后的值和真实值的误差平方和的相对平均值。

结果对比：

实验效果图如图3(a)-(d)，图4(a)-(d)，图5(a)-(d)，图6(a)-(d)，图7(a)-(d)。

基于卷积神经网络深度预测的漏洞修复方法相比传统的滤波算法在大块深度空洞的情形下优势比较明显，在长条边沿空洞效果一般，先进行大空洞修补然后对修补的边缘进行滤波可以达到一个比较不错的效果。

Claims

1.一种基于卷积神经网络的Kinect深度图修复方法，其特征在于，包括：模型训练阶段和深度图修复阶段；

所述模型训练阶段包括以下步骤：

(1)预处理训练数据：将Kinect的深度图和RGB图进行对齐操作，生成对齐后的RGB图和深度图；生成掩码图，图中包括有效信息和无效信息两部分，有效信息代表Kinect深度图的深度有效部位，无效信息代表Kinect深度图的深度无效部位，且与深度图宽度高度相等，通道数为1；其中对齐后的RGB图作为卷积神经网络训练数据，对齐后的深度图和掩码图作为网络的监督信息；

(2)构建待训练的卷积神经网络模型：所述的卷积神经网络包括：特征提取模块，深度恢复模块，深度图优化卷积模块；

所述神经网络的输入为数据集中对齐后的RGB图；

所述特征提取模块包括5个串联的特征提取卷积块，每个特征提取卷积块由三个卷积层和一个池化层构成，其中，最后一个特征提取卷积块没有池化层，所述的特征提取模块用于对输入图片进行不同尺度的特征提取；特征提取模块的输入为步骤(1)所述的对齐后的RGB图，输出为每个特征提取卷积块最后一层卷积层的特征图；

所述的深度恢复模块包括5个深度恢复卷积块，第1个深度恢复卷积块由3个卷积层构成，第2-5个卷积块由一个上采样层和三个卷积层构成，第1个深度恢复卷积块的输入为第五个特征提取卷积块的输出，第2-5个深度恢复卷积块的上采样层的输入分别为上一个深度恢复卷积块的输出，在每个上采样层之后加入跳跃连接结构，即将上采样层的结果和与之输出特征图形状相同的对应特征提取卷积块的输出进行通道合并再送入卷积层的计算，连续经过5个串联的深度恢复模块，对特征图进行4次上采样，得到与输入图片宽度和高度相同的深度图；深度恢复卷积模块最终输出的结果为粗糙的深度图；

所述深度图优化卷积模块包括四个连续的卷积层，作用是对深度恢复模块所生成的粗糙的深度图进行细节上的优化；模块的输入为对齐后的RGB图和深度恢复卷积模块输出的粗糙的深度图在通道维度进行合并后的特征图，模块的输出结果为最终的深度预测结果；

(3)构建训练模型需要的损失函数模块：所述损失函数模块用于优化模型输出的深度图和监督信息的差值；模型在训练深度恢复模块和深度图优化卷积模块时候采用的损失函数有所不同，其中深度恢复模块采用的损失函数公式为：

深度图优化卷积模块使用的损失函数公式为：

E_final＝D(y，y^*)+α*Gx(gradXy，gradXy^*)+β*Gy(gradYy，gradYy^*)，

其中，D(y，y^*)与上文中的意义相同，y为深度图优化卷积模块输出的深度图，y^*为Kinect对齐后深度图，gradXy为y在x方向上的梯度，gradXy^*为y^*在x方向上的梯度，gradYy为y在y方向上的梯度，gradYy^*为y^*在y方向上的梯度，Gx(gradXy，gradXy^*)和Gy(gradYy，gradYy^*)分别为y与y^*在x方向和y方向上的梯度值误差，α和β是超参数，α和β的取值范围为[0.05，0.2]，

(4)使用随机梯度下降法迭代训练所述卷积神经网络，先训练特征提取模块和深度恢复模块，使网络达到收敛，保存参数模型，然后再加载保存的参数模型并冻结前两个模块参数只训练深度图优化卷积模块直到模型再次收敛并且保存模型参数；

所述深度图修复阶段包括以下步骤：

(1)加载模型训练阶段训练好的最终的神经网络模型，输入待修复漏洞的对应的RGB图像得到模型预测的深度图；

(2)根据模型训练阶段步骤(1)中同样的办法求出待修复的深度图的掩码图，依据掩码图中标记的深度无效位置，对无效位置的像素使用所述模型预测的深度图的对应位置的深度值进行填充得到填充完成的深度图，具体用公式表示如下：

(3)对所述填充完成的深度图进行二维滑动中值滤波，所得到的结果最终的深度图修复结果。

2.根据权利要求1所述的一种基于卷积神经网络的Kinect深度图修复方法，其特征在于：所述的梯度值误差计算方法如下：

其中gradXy_i为y_i在x方向上的梯度，gradXy^* _i为y^* _i在x方向上的梯度，gradYy_i为y_i在y方向上的梯度，gradYy^* _i为y^* _i在y方向上的梯度。