CN109978786A - 一种基于卷积神经网络的Kinect深度图修复方法 - Google Patents
一种基于卷积神经网络的Kinect深度图修复方法 Download PDFInfo
- Publication number
- CN109978786A CN109978786A CN201910220680.0A CN201910220680A CN109978786A CN 109978786 A CN109978786 A CN 109978786A CN 201910220680 A CN201910220680 A CN 201910220680A CN 109978786 A CN109978786 A CN 109978786A
- Authority
- CN
- China
- Prior art keywords
- depth
- depth map
- module
- model
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000011084 recovery Methods 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004321 preservation Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000000873 masking effect Effects 0.000 abstract description 2
- 230000001151 other effect Effects 0.000 abstract description 2
- 230000008439 repair process Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/38—Registration of image sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于卷积神经网络的Kinect深度图修复方法,用于解决Kinect的深度图存在大面积空洞的问题,包括模型训练和深度图修复两个阶段。模型训练阶段构建了一个输入RGB图,输出深度图的单目深度估计模型,使用屏蔽掉空洞的Kinect深度图作为监督信息,训练出一个单目深度估计模型。修复阶段是把深度图对应的RGB图输入模型得到估计的深度图,并使用它填充原始深度图中的空洞,最后进行中值滤波得到最终修复结果。本方法在修复大面积的空洞的时候优势明显,本方法用“深度”补“深度”的解决思路决定了修复精度主要取决于深度估计模型本身的精度,这里如果换用其它效果更好的深度估计模型会达到更好的效果。
Description
技术领域
本发明属于深度学习及机器视觉领域,涉及一种基于卷积神经网络的Kinect深度图像空洞修复技术。这在现实场景中具有非常广泛的应用,例如游戏中的人机交互,机器人导航系统等。
背景技术
Kinect是微软公司推出的一款体感设备,它可以同时获取到场景的深度数据和彩色数据,最初其用于微软Xbox的游戏外设,用于完成人机交互和动作跟踪识别等功能。但是其应用场景不仅仅只有这里,随着国内外学者对Kinect设备的深入研究,发现它还可以应用在场景的三维重建,机器人导航系统等领域,并且取得了良好的研究成果。
Kinect深度传感器成像原理是:结构光发射器投射出特定编码结构的红外光斑,红外摄像头捕获图像,通过光斑的形变计算场景的深度。由于Kinect发射的红外信号可能被场景中的物体吸收,以及其他物体遮挡返回的红外信号等原因,会造成深度图像空洞。根据形成原因不同,空洞可以分类以下几类:
(1)由于边沿遮挡产生的空洞,这种空洞的特点是长条状,出现在物体的前景和背景的边界部分。缺失的部分深度的梯度变化比较剧烈。传统算法主要对这种情况处理效果较好。
(2)由于场景种的物体亮度太高,对深度摄像头的干扰较大,一般场景中的灯会出现在这种情况,空洞的形状和灯亮度高的地方形状一致。
(3)由于场景种物体表面反射率太低,导致深度传感器不能采集到光斑信息,这种空洞一般出现在深颜色的物体上。
(4)镜子,玻璃这种强反射物体。红外发生了反射。深度图会出现非常杂乱的光斑状空洞。这是最不好处理的一种情况。
传统的插值和图像滤波算法主要针对第一种的物体边沿的深度缺失现象效果比较好,可是针对大面积的空洞,由于空洞部分的深度缺失导致修补时的参考信息非常少,因此修复不自然。
随着近些年来深度学习的广泛应用,特别是卷积神经网络在图像领域取得巨大成功后,人们意识到CNN可以捕获一些隐式的特征,因此可以把卷积神经网络用在图片的深度估计上。受到此启发,可以把卷积神经网络用在空洞修复上,用重建出的深度信息去修补空洞。
发明内容
为了解决Kinect存在的第二种和第三种大面积空洞问题,本发明提出一种基于卷积神经网络的空洞修复方法。
本发明使用一个CNN来模拟复杂的非线性变换,去拟合RGB图和深度图的对应关系。然后利用根据RGB图拟合出来的深度图去填补原始深度图的空洞。
具体技术方案如下:
该技术方案主要分为两个阶段:模型训练阶段和深度图修复阶段。
模型训练阶段包括以下步骤:
步骤1:预处理训练数据:将Kinect的深度图和RGB图进行对齐操作,生成对齐后的RGB图和深度图;生成掩码图,图中包括有效信息和无效信息两部分,有效信息代表Kinect深度图的深度有效部位,无效信息代表Kinect深度图的深度无效部位,且与深度图宽度高度相等,通道数为1;其中对齐后的RGB图作为卷积神经网络训练数据,对齐后的深度图和掩码图作为网络的监督信息;
步骤2:构建待训练的卷积神经网络模型,神经网络的输入为数据集中对齐后的RGB图,卷积神经网络包括:特征提取模块,深度恢复模块,深度图优化卷积模块;
特征提取模块包括5个串联的特征提取卷积块,每个特征提取卷积块由三个卷积层和一个池化层构成,其中,最后一个特征提取卷积块是最后一个卷积块,不需要对特征图的宽高进行缩小所以没有池化层,特征提取模块用于对输入图片进行不同尺度的特征提取;特征提取模块的输入为步骤1所述的对齐后的RGB图,输出为每个特征提取卷积块最后一层卷积层的特征图;
深度恢复模块包括5个深度恢复卷积块,第1个深度恢复卷积块由3个卷积层构成,第2-5个卷积块由一个上采样层和三个卷积层构成,第1个深度恢复卷积块的输入为第五个特征提取卷积块的输出,第2-5个深度恢复卷积块的上采样层的输入分别为上一个深度恢复卷积块的输出,在每个上采样层之后加入跳跃连接结构,即将上采样层的结果和与之输出特征图形状相同的对应特征提取卷积块的输出进行通道合并再送入卷积层的计算,连续经过5个串联的深度恢复模块,对特征图进行4次上采样,得到与输入图片宽度和高度相同的深度图;深度恢复卷积模块最终输出的结果为粗糙的深度图;
深度图优化卷积模块包括四个连续的卷积层,作用是对深度恢复模块所生成的粗糙的深度图进行细节上的优化;模块的输入为对齐后的RGB图和深度恢复卷积模块输出的粗糙的深度图在通道维度进行合并后的特征图,模块的输出结果为最终的深度预测结果;
步骤3:构建训练模型需要的损失函数模块:所述损失函数模块用于优化模型输出的深度图和监督信息的差值;模型在训练深度恢复模块和深度图优化卷积模块时候采用的损失函数有所不同,其中深度恢复模块采用的损失函数公式为:
其中n为深度图像素数目,y为深度恢复模块估计出的深度图结果,y*为Kinect对齐后深度图,yi为y中第i个像素的值,为y*中第i个像素的值,maski为掩码图中第i个像素的值;
深度图优化卷积模块使用的损失函数公式为:
Efinal=D(y,y*)+α*Gx(gradXy,gradXy*)+β*Gy(gradYy,gradYy*),
其中D(y,y*)与上文中的意义相同,y为深度图优化卷积模块输出的深度图,y*为Kinect对齐后深度图,gradXy为y在x方向上的梯度,gradXy*为y*在x方向上的梯度,gradYy为y在y方向上的梯度,gradYy*为y*在y方向上的梯度,
Gx(gradXy,gradXy*)和Gy(gradYy,gradYy*)分别为y与y*在x方向和y方向上的梯度值误差,α和β是超参数,α和β的取值范围为[0.05,0.2],
其中,
其中,gradXyi为yi在x方向上的梯度,gradXy* i为y* i在x方向上的梯度,gradYyi为yi在y方向上的梯度,gradYy* i为y* i在y方向上的梯度。
步骤4:使用随机梯度下降法迭代训练所述卷积神经网络,先训练特征提取模块和深度恢复模块,使网络达到收敛,保存参数模型,然后再加载保存的参数模型并冻结前两个模块参数只训练深度图优化卷积模块直到模型再次收敛并且保存模型参数;
深度图修复阶段包括以下步骤:
步骤1:加载模型训练阶段训练好的最终的神经网络模型,输入待修复漏洞的对应的RGB图像得到模型预测的深度图;
步骤2:根据模型训练阶段步骤1中同样的办法求出待修复的深度图的掩码图,依据掩码图中标记的深度无效位置,对无效位置的像素使用所述模型预测的深度图的对应位置的深度值进行填充得到填充完成的深度图,具体用公式表示如下:
其中Depthfill为填充后的深度图,DepthKinect为待修复漏洞的深度图,Depth′为最终的神经网络模型估计深度图,mask为用于标记待修复漏洞的深度图中有效深度值的掩码图矩阵,mat1为与mask相同形状的全1矩阵,为哈达玛积;
步骤3:对填补的深度图进行滤波处理。由于对大块空洞进行填补的位置在空洞边缘的位置深度变化较大,填补的深度图和原始的深度图拼接不够自然,可能会出现毛刺噪点等噪声,所以需要对填补之后的深度图进行滤波处理。先对图像进行滑动窗口中值滤波,中值滤波是一种非线性的滤波,主要是用于对实值离散信号的滤波,基本思想是把图像中的某一点值用其邻域中各点值的中值代替,其定义为:对一维序列x1,x2,x3,…,xn,把n个数据按大小排列xi1≤xi2≤xi3≤…≤xin,则
对于图像是二维信号,对图像进行二维滑动窗口滤波,最终的输出得结果可以表示为
Depthfinal=med(Depthfill)
Depthfina即为本深度图修复方法的最终结果。
有益效果
本文的Kinect深度图修复方法在修复大面积的深度图空洞的时候优势明显,而且这个方法针对大面积空洞,用“深度”补“深度”的解决思路决定了修复精度主要取决于深度估计模型本身的精度,这里如果换用其它效果更好的深度估计模型会达到更好的效果。
附图说明
图1本发明方法流程图
图2本方法使用的卷积神经网络结构图
图3(a)-(d)原始RGB图
图4(a)-(d)待修复深度图
图5(a)-(d)本文模型深度估计结果
图6(a)-(d)深度图填充效果
图7(a)-(d)滤波后的最终效果
具体实施方式
以下将结合附图和实施例对本发明作进一步详细说明。本发明以英伟达GPU作为计算平台,使用pytorch深度学习框架作为CNN框架。训练神经网络用的是NYU Depth V2数据集经过对齐和屏蔽空洞的数据,大约使用了15万张RGB图和深度图。
具体实施步骤如下:
训练阶段:
步骤1:数据集准备和预处理。
我们使用NYUdepth公开数据集训练我们的神经网络,该数据包括近四百个室内场景,包括卧室,客厅,书房,办公室,图书馆,咖啡厅等等,完整的数据集大约有428G,由于数据集本身太相当庞大,本文只使用了160个场景大约15万张图片,其中挑选了12万张用作训练。在训练之前需要对数据集进行预处理,需要对RGB图和深度图进行对齐操作。然后生成掩码图,深度有效的地方设置为1,深度缺失的地方设置为0,作用是屏蔽掉深度缺失的部分使之不参与训练。
步骤2:构建待训练的卷积神经网络模型。
我们使用如图2所示的网络结构,其中网络层名称依次为:特征提取卷积块1-5,卷积块1-4的结构是由三个卷积层和一个池化层构成的,最后一个特征提取卷积块是最后一个卷积块,不需要对特征图的宽高进行缩小所以没有池化层。图像恢复卷积块1-5,卷积块2-5是由三个卷积层和一个上采样层构成,卷积块1没有上采样层。在输出相同形状的feature map的对应卷积块有skip connect结构,把特征提取的结果和图像恢复的featuremap的channels维度拼接到一起,目的是充分利用各尺度的特征,改善深度估计效果。最后是深度图优化卷积模块包括4个连续的卷积层,作用是对深度恢复模块所生成的粗糙的深度图进行细节上的优化;
使用前5个卷积块按1-5的顺序对RGB图像进行特征提取。然后图像恢复卷积块按1-5顺序对提取到的特征进行恢复和上采样,最后得到和RGB图像一样大小,通道为1的深度图。网络的每一个卷积层使用的卷积核大小为:3*3,特征提取卷积块1-5得输出的featuremap的通道数分别为:64,128,256,512,1024。图像恢复卷积块1-5的输出通道分别为512,256,128,64,1。经过skip connect之后的feature map的channels维度翻倍,通道合并层使用pytorch框架提供的torch.cat()操作。每个特征提取卷积块的最后一层是池化层,经过池化层,feature map的宽和高变为原来的一半,通道数不变。每个图像恢复卷积块的最后一层是上采样层,经过上采样层,feature map的宽和高变为原来的2倍,通道数不变。
最后经过深度图优化卷积模块,模块的输入为对齐后的RGB图和深度恢复卷积模块输出的粗糙的深度图在通道维度进行合并后的特征图,所以输入通道数为4。每个卷积层使用的卷积核大小为:3*3,输出通道数分别为128,128,128,1。模块的输出结果为最终的深度预测结果。
步骤3:构建待训练的卷积神经网络模型。
模型在训练深度恢复模块和深度图优化卷积模块时候采用的损失函数有所不同,其中深度恢复模块采用的损失函数公式为:
其中n为深度图像素数目,y为深度恢复模块估计出的深度图结果,y*为Kinect对齐后深度图,yi为y中第i个像素的值,为y*中第i个像素的值,maski为掩码图中第i个像素的值;
深度图优化卷积模块使用的损失函数公式为:
Efinal=D(y,y*)+α*Gx(gradXy,gradXy*)+β*Gy(gradYy,gradYy*),
其中D(y,y*)与上文中的意义相同,y为深度图优化卷积模块输出的深度图,y*为Kinect对齐后深度图,gradXy为y在x方向上的梯度,gradXy*为y*在x方向上的梯度,gradYy为y在y方向上的梯度,gradYy*为y*在y方向上的梯度,
Gx(gradXy,gradXy*)和Gy(gradYy,gradYy*)分别为y与y*在x方向和y方向上的梯度值误差,α和β是超参数,α和β取值0.1可以得到不错的效果。
步骤4:使用随机梯度下降法迭代训练所述卷积神经网络,先训练特征提取模块和深度恢复模块,使网络达到收敛,保存参数模型,然后再加载保存的参数模型并冻结前两个模块参数只训练深度图优化卷积模块直到模型再次收敛并且保存模型参数。在训练卷积神经网络时,每次读入20个图像对作为一个批次。神经网络权值初始化方法为随机初始化,使用SGD以0.9的动量和0.0005的权重衰减对网络进行优化。把RGB三个通道的减去对应的均值(104,117,123),然后除以255使左右图像像素值分布在区间[-1,1]之间。在损失函数Efinal=D(y,y*)+α*Gx(gradXy,gradXy*)+β*Gy(gradYy,gradYy*)中设置超参数α和β取值0.1。训练的停止条件为将所有数据迭代20epoch。
深度图修复阶段:
步骤1:加载模型训练阶段训练好的最终的神经网络模型,输入待修复漏洞的对应的RGB图像得到模型预测的深度图;
步骤2:根据模型训练阶段步骤1中同样的办法求出待修复的深度图的掩码图,依据掩码图中标记的深度无效位置,对无效位置的像素使用所述模型预测的深度图的对应位置的深度值进行填充得到填充完成的深度图;
步骤3:对填补的深度图进行滤波处理。
对填充之后的深度值分别进行中值滤波,用来修复拼接处的噪点,然后进行均值滤波,使拼接处更平滑,改善拼接的效果。中值滤波窗口大小参数设置为5。
具体实施步骤叙述完毕,效果如图3所示。下面给出本发明的一个测试结果。实验环境为:GTX1070 GPU,CUDA8.0版本,使用NYUdepth数据集进行测试并与现有的滤波修复方法进行比较。用以下评估方法评估本发明的结果,以下指标越小越好:
其中,di表示修复后的深度值,真实的深度值,T深度图像像素位置索引,|T|表示深度图像像素点的数量。RMS即表示的修复后的值和真实值的均方根误差;logRMS表示修复后的值和真实值在log域的均方根误差;absRelative表示修复后的值和真实值的绝对值的相对平均值,sqRelative表示修复后的值和真实值的误差平方和的相对平均值。
结果对比:
实验效果图如图3(a)-(d),图4(a)-(d),图5(a)-(d),图6(a)-(d),图7(a)-(d)。
基于卷积神经网络深度预测的漏洞修复方法相比传统的滤波算法在大块深度空洞的情形下优势比较明显,在长条边沿空洞效果一般,先进行大空洞修补然后对修补的边缘进行滤波可以达到一个比较不错的效果。
Claims (2)
1.一种基于卷积神经网络的Kinect深度图修复方法,其特征在于,包括:模型训练阶段和深度图修复阶段;
所述模型训练阶段包括以下步骤:
(1)预处理训练数据:将Kinect的深度图和RGB图进行对齐操作,生成对齐后的RGB图和深度图;生成掩码图,图中包括有效信息和无效信息两部分,有效信息代表Kinect深度图的深度有效部位,无效信息代表Kinect深度图的深度无效部位,且与深度图宽度高度相等,通道数为1;其中对齐后的RGB图作为卷积神经网络训练数据,对齐后的深度图和掩码图作为网络的监督信息;
(2)构建待训练的卷积神经网络模型:所述的卷积神经网络包括:特征提取模块,深度恢复模块,深度图优化卷积模块;
所述神经网络的输入为数据集中对齐后的RGB图;
所述特征提取模块包括5个串联的特征提取卷积块,每个特征提取卷积块由三个卷积层和一个池化层构成,其中,最后一个特征提取卷积块没有池化层,所述的特征提取模块用于对输入图片进行不同尺度的特征提取;特征提取模块的输入为步骤(1)所述的对齐后的RGB图,输出为每个特征提取卷积块最后一层卷积层的特征图;
所述的深度恢复模块包括5个深度恢复卷积块,第1个深度恢复卷积块由3个卷积层构成,第2-5个卷积块由一个上采样层和三个卷积层构成,第1个深度恢复卷积块的输入为第五个特征提取卷积块的输出,第2-5个深度恢复卷积块的上采样层的输入分别为上一个深度恢复卷积块的输出,在每个上采样层之后加入跳跃连接结构,即将上采样层的结果和与之输出特征图形状相同的对应特征提取卷积块的输出进行通道合并再送入卷积层的计算,连续经过5个串联的深度恢复模块,对特征图进行4次上采样,得到与输入图片宽度和高度相同的深度图;深度恢复卷积模块最终输出的结果为粗糙的深度图;
所述深度图优化卷积模块包括四个连续的卷积层,作用是对深度恢复模块所生成的粗糙的深度图进行细节上的优化;模块的输入为对齐后的RGB图和深度恢复卷积模块输出的粗糙的深度图在通道维度进行合并后的特征图,模块的输出结果为最终的深度预测结果;
(3)构建训练模型需要的损失函数模块:所述损失函数模块用于优化模型输出的深度图和监督信息的差值;模型在训练深度恢复模块和深度图优化卷积模块时候采用的损失函数有所不同,其中深度恢复模块采用的损失函数公式为:
其中n为深度图像素数目,y为深度恢复模块估计出的深度图结果,y*为Kinect对齐后深度图,yi为y中第i个像素的值,为y*中第i个像素的值,maski为掩码图中第i个像素的值;
深度图优化卷积模块使用的损失函数公式为:
Efinal=D(y,y*)+α*Gx(gradXy,gradXy*)+β*Gy(gradYy,gradYy*),
其中,D(y,y*)与上文中的意义相同,y为深度图优化卷积模块输出的深度图,y*为Kinect对齐后深度图,gradXy为y在x方向上的梯度,gradXy*为y*在x方向上的梯度,gradYy为y在y方向上的梯度,gradYy*为y*在y方向上的梯度,Gx(gradXy,gradXy*)和Gy(gradYy,gradYy*)分别为y与y*在x方向和y方向上的梯度值误差,α和β是超参数,α和β的取值范围为[0.05,0.2],
(4)使用随机梯度下降法迭代训练所述卷积神经网络,先训练特征提取模块和深度恢复模块,使网络达到收敛,保存参数模型,然后再加载保存的参数模型并冻结前两个模块参数只训练深度图优化卷积模块直到模型再次收敛并且保存模型参数;
所述深度图修复阶段包括以下步骤:
(1)加载模型训练阶段训练好的最终的神经网络模型,输入待修复漏洞的对应的RGB图像得到模型预测的深度图;
(2)根据模型训练阶段步骤(1)中同样的办法求出待修复的深度图的掩码图,依据掩码图中标记的深度无效位置,对无效位置的像素使用所述模型预测的深度图的对应位置的深度值进行填充得到填充完成的深度图,具体用公式表示如下:
其中Depthfill为填充后的深度图,DepthKinect为待修复漏洞的深度图,Depth′为最终的神经网络模型估计深度图,mask为用于标记待修复漏洞的深度图中有效深度值的掩码图矩阵,mat1为与mask相同形状的全1矩阵,为哈达玛积;
(3)对所述填充完成的深度图进行二维滑动中值滤波,所得到的结果最终的深度图修复结果。
2.根据权利要求1所述的一种基于卷积神经网络的Kinect深度图修复方法,其特征在于:所述的梯度值误差计算方法如下:
其中gradXyi为yi在x方向上的梯度,gradXy* i为y* i在x方向上的梯度,gradYyi为yi在y方向上的梯度,gradYy* i为y* i在y方向上的梯度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910220680.0A CN109978786B (zh) | 2019-03-22 | 2019-03-22 | 一种基于卷积神经网络的Kinect深度图修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910220680.0A CN109978786B (zh) | 2019-03-22 | 2019-03-22 | 一种基于卷积神经网络的Kinect深度图修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109978786A true CN109978786A (zh) | 2019-07-05 |
CN109978786B CN109978786B (zh) | 2020-09-25 |
Family
ID=67080035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910220680.0A Expired - Fee Related CN109978786B (zh) | 2019-03-22 | 2019-03-22 | 一种基于卷积神经网络的Kinect深度图修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109978786B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110381304A (zh) * | 2019-07-23 | 2019-10-25 | 京东方科技集团股份有限公司 | 用于修复空洞图片的模型训练方法、空洞图片的修复方法 |
CN110400338A (zh) * | 2019-07-11 | 2019-11-01 | Oppo广东移动通信有限公司 | 深度图处理方法、装置和电子设备 |
CN110827209A (zh) * | 2019-09-26 | 2020-02-21 | 西安交通大学 | 一种联合颜色与深度信息的自适应深度图像修复方法 |
CN111179188A (zh) * | 2019-12-14 | 2020-05-19 | 中国科学院深圳先进技术研究院 | 图像修复方法及其模型训练方法、以及相关装置 |
CN111476087A (zh) * | 2020-03-02 | 2020-07-31 | 深圳市商汤科技有限公司 | 目标检测方法及其相关的模型训练方法、设备、装置 |
CN112019828A (zh) * | 2020-08-14 | 2020-12-01 | 上海网达软件股份有限公司 | 一种视频的2d到3d的转换方法 |
WO2021021313A1 (en) * | 2019-07-30 | 2021-02-04 | Microsoft Technology Licensing, Llc | Pixel classification to reduce depth-estimation error |
WO2021035979A1 (zh) * | 2019-08-23 | 2021-03-04 | 平安科技(深圳)有限公司 | 边缘学习的图像填充方法、装置、终端及可读存储介质 |
CN112543317A (zh) * | 2020-12-03 | 2021-03-23 | 东南大学 | 高分辨率单目2d视频到双目3d视频的转制方法 |
CN112749712A (zh) * | 2021-01-22 | 2021-05-04 | 四川大学 | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 |
CN114089330A (zh) * | 2022-01-18 | 2022-02-25 | 北京航空航天大学 | 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100073364A1 (en) * | 2008-09-25 | 2010-03-25 | Samsung Electronics Co., Ltd. | Conversion method and apparatus with depth map generation |
CN106485672A (zh) * | 2016-09-12 | 2017-03-08 | 西安电子科技大学 | 改进的块匹配修复和联合三边导向滤波图像增强方法 |
CN109636732A (zh) * | 2018-10-24 | 2019-04-16 | 深圳先进技术研究院 | 一种深度图像的空洞修复方法以及图像处理装置 |
-
2019
- 2019-03-22 CN CN201910220680.0A patent/CN109978786B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100073364A1 (en) * | 2008-09-25 | 2010-03-25 | Samsung Electronics Co., Ltd. | Conversion method and apparatus with depth map generation |
CN106485672A (zh) * | 2016-09-12 | 2017-03-08 | 西安电子科技大学 | 改进的块匹配修复和联合三边导向滤波图像增强方法 |
CN109636732A (zh) * | 2018-10-24 | 2019-04-16 | 深圳先进技术研究院 | 一种深度图像的空洞修复方法以及图像处理装置 |
Non-Patent Citations (2)
Title |
---|
MANDAL S,BHAVSAR A,SAO A K: "Depth Map Restoration From Undersampled Data", 《IEEE TRANS IMAGE PROCESS》 * |
王丹: "基于深度图像绘制中的空洞填补方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400338A (zh) * | 2019-07-11 | 2019-11-01 | Oppo广东移动通信有限公司 | 深度图处理方法、装置和电子设备 |
CN110381304A (zh) * | 2019-07-23 | 2019-10-25 | 京东方科技集团股份有限公司 | 用于修复空洞图片的模型训练方法、空洞图片的修复方法 |
WO2021021313A1 (en) * | 2019-07-30 | 2021-02-04 | Microsoft Technology Licensing, Llc | Pixel classification to reduce depth-estimation error |
US11416998B2 (en) | 2019-07-30 | 2022-08-16 | Microsoft Technology Licensing, Llc | Pixel classification to reduce depth-estimation error |
WO2021035979A1 (zh) * | 2019-08-23 | 2021-03-04 | 平安科技(深圳)有限公司 | 边缘学习的图像填充方法、装置、终端及可读存储介质 |
CN110827209A (zh) * | 2019-09-26 | 2020-02-21 | 西安交通大学 | 一种联合颜色与深度信息的自适应深度图像修复方法 |
CN111179188A (zh) * | 2019-12-14 | 2020-05-19 | 中国科学院深圳先进技术研究院 | 图像修复方法及其模型训练方法、以及相关装置 |
CN111179188B (zh) * | 2019-12-14 | 2023-08-15 | 中国科学院深圳先进技术研究院 | 图像修复方法及其模型训练方法、以及相关装置 |
CN111476087A (zh) * | 2020-03-02 | 2020-07-31 | 深圳市商汤科技有限公司 | 目标检测方法及其相关的模型训练方法、设备、装置 |
CN112019828B (zh) * | 2020-08-14 | 2022-07-19 | 上海网达软件股份有限公司 | 一种视频的2d到3d的转换方法 |
CN112019828A (zh) * | 2020-08-14 | 2020-12-01 | 上海网达软件股份有限公司 | 一种视频的2d到3d的转换方法 |
CN112543317A (zh) * | 2020-12-03 | 2021-03-23 | 东南大学 | 高分辨率单目2d视频到双目3d视频的转制方法 |
CN112749712B (zh) * | 2021-01-22 | 2022-04-12 | 四川大学 | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 |
CN112749712A (zh) * | 2021-01-22 | 2021-05-04 | 四川大学 | 一种基于3d卷积神经网络的rgbd显著性物体检测方法 |
CN114089330A (zh) * | 2022-01-18 | 2022-02-25 | 北京航空航天大学 | 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法 |
WO2023138163A1 (zh) * | 2022-01-18 | 2023-07-27 | 北京航空航天大学 | 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109978786B (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978786A (zh) | 一种基于卷积神经网络的Kinect深度图修复方法 | |
CN105069746B (zh) | 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其系统 | |
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN104867135B (zh) | 一种基于指导图像引导的高精度立体匹配方法 | |
CN108416840A (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
CN106504248A (zh) | 基于计算机视觉的车辆损伤判别方法 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN105787439A (zh) | 一种基于卷积神经网络的深度图像人体关节定位方法 | |
CN108389226A (zh) | 一种基于卷积神经网络和双目视差的无监督深度预测方法 | |
CN109784148A (zh) | 活体检测方法及装置 | |
CN108416803A (zh) | 一种基于深度神经网络的多信息融合的场景深度恢复方法 | |
CN110490158A (zh) | 一种基于多级模型的鲁棒人脸对齐方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN106228528A (zh) | 一种基于决策图与稀疏表示的多聚焦图像融合方法 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN101610425A (zh) | 一种评测立体图像质量的方法和装置 | |
CN111043988B (zh) | 一种基于图形学和深度学习的单张条纹投影测量方法 | |
CN107635136A (zh) | 基于视觉感知和双目竞争的无参考立体图像质量评价方法 | |
CN113421346A (zh) | 一种增强驾驶感的ar-hud抬头显示界面的设计方法 | |
CN104751111A (zh) | 识别视频中人体行为的方法和系统 | |
CN112132770A (zh) | 图像修复的方法、装置、计算机可读介质及电子设备 | |
CN111462208A (zh) | 一种基于双目视差和外极线约束的无监督深度预测方法 | |
CN114862829A (zh) | 一种钢筋绑扎点定位方法、装置、设备及存储介质 | |
CN112785692A (zh) | 一种基于深度uv先验的单视角多人人体重建方法 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200925 |
|
CF01 | Termination of patent right due to non-payment of annual fee |