CN111104532A - 一种基于双流网络的rgbd图像联合恢复方法 - Google Patents
一种基于双流网络的rgbd图像联合恢复方法 Download PDFInfo
- Publication number
- CN111104532A CN111104532A CN201911400820.9A CN201911400820A CN111104532A CN 111104532 A CN111104532 A CN 111104532A CN 201911400820 A CN201911400820 A CN 201911400820A CN 111104532 A CN111104532 A CN 111104532A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- rgbd
- rgb
- depth image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000011084 recovery Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 39
- 230000004913 activation Effects 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004392 development of vision Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于双流网络的RGBD图像联合恢复方法,包括:S1,获取用于训练和测试的RGBD图像数据库;S2,将RGBD图像数据库划分为训练数据集及测试数据集,并对RGBD图像数据库的RGBD图像进行预处理;S3,根据训练数据集训练双流卷积网络模型,保存训练完成的网络参数;S4,将测试数据集输入双流卷积网络模型进行联合恢复,并测试恢复程度。本发明能够同时对退化的RGB图像及其对应的深度图像进行修复,符合实际应用场景。
Description
技术领域
本发明涉及数字图像处理技术领域,特别是涉及一种基于双流网络的RGBD图像联合恢复方法。
背景技术
在信息化与大数据的时代,生活的方方面面都会使用到图像信息,人们可以便捷地通过手机,相机等传感器设备获取身边的数字图像,从而进行传播及分享。近年来,随着视觉传感器的发展及人工智能等先进技术的发展,人们对于描述传播身边视觉信息的要求不再满足于通用的2D信息,丰富多彩,表达能力更佳的3D视觉信息逐渐进入人们的生活。通常3D视觉信息由类似MicrosoftKinect等RGBD数据传感器获取并进一步处理建模得到,然而目前RGBD数据传感器处理能力远不及目前的2D相机处理能力,获取RGBD图像数据需要高昂的设备费用,并且得到的深度图像数据存在噪声、部分缺失等退化问题,与获取的深度图像信息类似,采样得到的RGB图像也会存在一定的退化问题。
由于RGBD图像传感器获取的RGB图像及深度图像数据均存在一定程度的退化,其中深度图像信息的退化较为严重,而RGB图像的退化具有普遍性,因此研发一种可靠且有效的RGBD图像处理算法变得越来越重要。目前的研究主要可以分为两类,第一类,研究者抛开了RGB图像数据,仅考虑深度图像的信息并通过一些深度图像信息的先验或约束对其深度图像信息进行处理及恢复,该类方法通常采用滤波、能量方程、马尔科夫随机场等方法。另一类方法则采用传感器获得的RGB图像信息作为深度图像信息的指导,通过提取RGB图像信息的边等信息来指导深度图像信息的恢复,该类方法即可通过传统的优化方法进行解决,也可以通过深度卷积网络进行端到端训练,并且该类方法能够取得较好恢复效果。可以看出目前大多数研究者对于RGBD图像数据进行处理均建立在只有深度图像存在缺失、噪声等退化,并认为传感器获取的RGB数据是相对而言清晰高分辨率的。然而认为传感器获取的RGB图像信息不需要处理的假设在实际问题中并不存在。在实际情况中,往往随同深度图像信息一起获取的RGB图像信息存在噪声、模糊等普遍的退化,例如无人车的三维数据传感器获得的RGB图像就存在较为普遍的运动模糊及噪声,而一些廉价的RGBD传感器所获取的RGB图像则普遍分辨率较低。因此,行业急需研发一种同时对RGBD传感器获得的深度图像及RGB图像数据进行处理及恢复的方法。
发明内容
针对现有技术存在的对于RGBD图像数据进行处理均建立在只有深度图像存在缺失、噪声等退化的问题,本发明提供一种基于双流网络的RGBD图像联合恢复方法。
本申请的具体方案如下:
一种基于双流网络的RGBD图像联合恢复方法,包括:
S1,获取用于训练和测试的RGBD图像数据库;
S2,将RGBD图像数据库划分为训练数据集及测试数据集,并对RGBD图像数据库的RGBD图像进行预处理,作为网络输入;
S3,根据训练数据集训练双流卷积网络模型,保存训练完成的网络参数;
S4,将测试数据集输入双流卷积网络模型进行联合恢复,并测试恢复程度。
优选地,所述RGBD图像数据库在无人驾驶场景下的大规模RGBD图像数据集KITTIdepth competition数据集。
优选地,步骤S2包括:将RGBD图像数据库划分为训练数据集及测试数据集,将训练数据集中的深度图像及对应RGB图像作为一组;对每组的RGB图像及深度图像进行裁剪为合适尺寸,并进行归一化处理。
优选地,根据训练数据集训练双流卷积网络模型的步骤包括:
S31,搭建双流卷积网络模型的网络结构:
S3101,输入深度图像D和RGB图像C;
S3102,将深度图像D输入归一化卷积层Nconv1,卷积核大小为3,步长为1,保持分辨率不变,再通过非线性激活得到特征图X1;
S3103,将特征图X1输入归一化卷积层Nconv2,卷积核大小为3,步长为1,保持分辨率不变,再通过非线性激活,得到特征图X2;
S3104,将特征图X2输入卷积层conv3,卷积核大小为3,步长为1,通过激活层得到特征图X3;
S3105,将特征图X3输入卷积层conv4,卷积核大小为3,步长为1,通过激活层得到特征图X4,特征图X4为深度图像提取得到的特征;
S3106,将RGB图像C输入ResBlock1,卷积核大小为3,步长为1,保持分辨率不变得到特征图Y1;
S3107,将特征图Y1输入ResBlock2,卷积核大小为3,步长为1,保持分辨率不变,得到特征图Y2;
S3108,将特征图Y2输入卷积层ResBlock3,卷积核大小为3,步长为1,保持分辨率不变得到特征图Y3;
S3109,将特征图Y3输入卷积层conv4,卷积核大小为3,步长为1,通过激活层得到特征图Y4,特征图Y4为RGB图像提取得到的特征;
S3110,将特征图X4和特征图Y4叠加输入到一个卷积组,该卷积组包含3个卷积核大小为3,步长为1的卷积层及对应的激活层,得到融合特征图F;
S3111,将融合特征F和深度图像特征X4叠加到一个卷积组,该卷积组包含4个卷积核大小为3,步长为1的卷积层及对应的激活层,得到复原的深度图像D’;
S3112,将融合特征F、深度图像特征X4和RGB图像特征Y4叠加到一个ResBlock组,该ResBlock组包含3个卷积核大小为3,步长为1的ResBlock及1个卷积核大小为3,步长为1的卷积层和对应激活层,得到复原的RGB图像C’;
S32,构造损失函数:
其中对于深度图像,采用了带有mask的内容损失函数和TV损失函数,其中内容损失函数定义如下:
其中i代表每个像素的下标,代表(D′(i)-Dg(i))的二范数的平方,M·N表示深度图像的大小,Dg是真实清晰的深度图像,D′是网络生成的深度图像,若maski=1成立,表示真实深度图像在该点存在值;若maski=1不成立,表示真实图像在该点不存在像素值,则在计算损失函数时不需要计入在内;深度图像的TV损失函数定义为如下:
对于RGB图像,采用了内容损失函数,其中内容损失函数定义如下:
此外为了更好的使生成的RGB图像保有清晰的边及减少生成RGB图像的响铃效应,设计了一种简单的梯度损失函数,其定义如下:
此外还为RGB图像引入对抗损失函数,该对抗损失函数由RGB图像的生成对抗训练机制提供,其定义如下:
其中Dis表示判别器,Ger表示RGB图像生成器,C表示输入的RGB图像,D表示输入的深度图像,Cg表示真实清晰的RGB图像;
综上,双流卷积网络模型采用的损失函数构造如下:
L=Ldcont+λ1LdTV+λ2Lccont+λ3Lcgrad+λ4Lcadv
其中λ1=λ3=1.1,λ2=1,λ4=0.55为各损失函数间的权重。
优选地,步骤S4包括:在测试数据集中读取RGBD图像数据,按照训练数据集的预处理方法对RGBD图像数据进行预处理;将测试数据集的RGBD图像数据输入加载的双流卷积网络模型中,得到恢复的RGB图像和深度图像;将恢复的RGB图像与真实清晰RGB图像进行对比,计算衡量指标PSNR;将恢复的深度图像与真实深度图像进行对比,计算衡量指标RMSE。
与现有技术相比,本发明具有如下有益效果:
本发明针对RGBD图像联合恢复问题,提出一种基于双流网络的RGBD图像联合恢复方法,该方法能够同时对退化的RGB图像及其对应的深度图像进行修复,符合实际应用场景。
本发明提出的端到端的双流卷积网络模型,能够有效地编码深度图像特征和RGB特征,并且能够有效地将两者进行融合,从而学习到两者间的相关性,有助于两者图像的恢复。
本发明相比于传统优化算法具有更低的时间复杂度,本发明训练好的网络模型能够很快地得到恢复结果,而传统方法需要进行迭代优化,需要更高的时间复杂度。
本发明相比于单独对深度图像进行修复的算法,能够得到更好地RGB图像,可以更便捷地应用在实际问题场景。
附图说明
图1为本发明的基于双流网络的RGBD图像联合恢复方法的一示意性流程图。
图2为本发明的基于双流网络的RGBD图像联合恢复方法的另一示意性流程图。
图3为本发明的双流卷积网络模型的双流卷积网络结构图。
图4为本发明的ResBlock结构图。
图5为本发明的RGB图像判别网络结构图。
图6为本发明的RGB图像生成对抗训练机制图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参见图1-2、一种基于双流网络的RGBD图像联合恢复方法,包括:
S1,获取用于训练和测试的RGBD图像数据库;所述RGBD图像数据库在无人驾驶场景下的大规模RGBD图像数据集KITTI depth competition数据集。
S2,将RGBD图像数据库划分为训练数据集及测试数据集,并对RGBD图像数据库的RGBD图像进行预处理,作为网络输入;在本实施例,步骤S2包括:将RGBD图像数据库划分为训练数据集及测试数据集,将训练数据集中的深度图像及对应RGB图像作为一组;对每组的RGB图像及深度图像进行裁剪为合适尺寸,并进行归一化处理。
S3,根据训练数据集训练双流卷积网络模型,保存训练完成的网络参数;
S4,将测试数据集输入双流卷积网络模型进行联合恢复,并测试恢复程度。
在本实施例,根据训练数据集训练双流卷积网络模型的步骤包括:
S31,搭建双流卷积网络模型的网络结构,参见图3:
S3101,输入深度图像D和RGB图像C;
S3102,将深度图像D输入归一化卷积层Nconv1,卷积核大小为3,步长为1,保持分辨率不变,再通过非线性激活得到特征图X1;
S3103,将特征图X1输入归一化卷积层Nconv2,卷积核大小为3,步长为1,保持分辨率不变,再通过非线性激活,得到特征图X2;
S3104,将特征图X2输入卷积层conv3,卷积核大小为3,步长为1,通过激活层得到特征图X3;
S3105,将特征图X3输入卷积层conv4,卷积核大小为3,步长为1,通过激活层得到特征图X4,特征图X4为深度图像提取得到的特征;
S3106,将RGB图像C输入ResBlock1(ResBlock具体结构如图4所示),卷积核大小为3,步长为1,保持分辨率不变得到特征图Y1;
S3107,将特征图Y1输入ResBlock2,卷积核大小为3,步长为1,保持分辨率不变,得到特征图Y2;
S3108,将特征图Y2输入卷积层ResBlock3,卷积核大小为3,步长为1,保持分辨率不变得到特征图Y3;
S3109,将特征图Y3输入卷积层conv4,卷积核大小为3,步长为1,通过激活层得到特征图Y4,特征图Y4为RGB图像提取得到的特征;
S3110,将特征图X4和特征图Y4叠加输入到一个卷积组,该卷积组包含3个卷积核大小为3,步长为1的卷积层及对应的激活层,得到融合特征图F;
S3111,将融合特征F和深度图像特征X4叠加到一个卷积组,该卷积组包含4个卷积核大小为3,步长为1的卷积层及对应的激活层,得到复原的深度图像D’;
S3112,将融合特征F、深度图像特征X4和RGB图像特征Y4叠加到一个ResBlock组,该ResBlock组包含3个卷积核大小为3,步长为1的ResBlock及1个卷积核大小为3,步长为1的卷积层和对应激活层,得到复原的RGB图像C’;
S32,构造损失函数:
为了完成双流卷积网络模型的端到端学习,让网络能够有效地学习到退化RGBD图像到清晰RGBD图像的映射,针对RGB图像及深度图像,分别构建了适合其图像总体特征及内容的损失函数。
其中对于深度图像,由于深度图像的真实清晰图像也存在一定的像素缺失,为了更好地衡量网络的复原效果及有效的训练网络模型,采用了带有mask的内容损失函数和TV损失函数,其中内容损失函数定义如下:
其中i代表每个像素的下标,代表(D′(i)-Dg(i))的二范数的平方,M·N表示深度图像的大小,Dg是真实清晰的深度图像,D′是网络生成的深度图像,若maski=1成立,表示真实深度图像在该点存在值;若maski=1不成立,表示真实图像在该点不存在像素值,则在计算损失函数时不需要计入在内;深度图像的TV损失函数定义为如下:
类似的,对于RGB图像,为了准确地衡量和有效训练网络模型,采用了内容损失函数,其中内容损失函数定义如下:
此外为了更好的使生成的RGB图像保有清晰的边及减少生成RGB图像的响铃效应,设计了一种简单的梯度损失函数,其定义如下:
此外还为RGB图像引入对抗损失函数,该对抗损失函数由RGB图像的生成对抗训练机制提供,生成对抗训练机制如图6所示,由生成器即本发明的双流网络,和判别器如图5所示组成,生成器通过给定的输入条件生成RGB图像,判别器则判断输入的RGB图像是真实RGB图像还是生成的RGB图像,整个的生成对抗训练函数定义如下:
其中Dis表示判别器,Ger表示RGB图像生成器,C表示输入的RGB图像,D表示输入的深度图像,Cg表示真实清晰的RGB图像;
综上,双流卷积网络模型采用的损失函数构造如下:
L=Ldcont+λ1LdTV+λ2Lccont+λ3Lcgrad+λ4Lcadv
其中λ1=λ3=1.1,λ2=1,λ4=0.55为各损失函数间的权重。
在本实施例,步骤S4包括:在测试数据集中读取RGBD图像数据,按照训练数据集的预处理方法对RGBD图像数据进行预处理;将测试数据集的RGBD图像数据输入加载的双流卷积网络模型中,得到恢复的RGB图像和深度图像;将恢复的RGB图像与真实清晰RGB图像进行对比,计算衡量指标PSNR;将恢复的深度图像与真实深度图像进行对比,计算衡量指标RMSE。
本方案的基于双流网络的RGBD图像联合恢复方法可以运用到如下领域:
无人驾驶,无人驾驶领域的大多数算法需要高质量的RGBD图像作为数据输入;
三维重建,更准确的深度图像数据及RGB信息有助于三维重建的准确性;
虚拟现实,通过深度图像信息来建立虚拟的三维模型。
本方案利用深度图像与其对应的RGB图像之间的潜在关系,将深度图像恢复与RGB图像处理同时进行。一方面可以利用深度图像的边界特征来指导RGB图像的处理,另一方面可以根据RGB图像的特征来指导深度图像修复。本方案是通过有监督的学习进行端到端的RGBD图像联合恢复,所以本方案需要一个较大数量的待训练的RGBD数据集。
本方案在训练数据集上选择了目前公开的,具有较大数据规模的KITTI depthcompetition数据集,该数据集源自真实的无人驾驶数据。本方案训练中,训练样本包含退化的RGBD图像及其对应的清晰RGBD图像作为训练对。本方案的网络没有采用其他数据集进行预训练,KITTI数据的数量及场景能够保证网络学习到RGBD图像恢复的端到端映射。
本方案提出一种双流形式的深度卷积网络模型,从而有效实现RGBD图像的联合恢复。该网络模型的主要任务就是通过分别对输入的RGB图像和深度图像进行特征提取,然后融合两者的特征,最后分别从融合的特征中恢复出复原的RGB图像和深度图像。通过有效的网络训练,该双流网络模型能够学习到一个从退化的RGB和深度图像的输入到真实的RGB和深度图像的映射,每当向网络输入一个退化的RGBD图像,就能得到一个恢复后的RGBD图像。
本方案在深度图像这一分流上采用目前较为流行的全卷积网络作为整体框架,通过多层卷积网络提取深度图像的特征,之后与RGB图像特征进行叠加通过网络进行特征处理,之后将处理得到的融合特征与深度图像特征及RGB特征叠加通过卷积网络进行复原。特别地,本方案在深度图像分支开始的卷积采用归一化卷积,该卷积更适用于深度图像。
本方案在RGB图像这一分流上采用基于ResBlock的卷积神经网络,通过skip-connection有效地将融合前的特征传递到融合后网络进行图像复原,对于RGB图像的恢复分支,本方案仅采用了深度图像与RGB图像的融合特征及RGB图像特征就可以得到一个很好的恢复效果。
本方案还设计了一个简单的判别网络来对RGB图像恢复进行对抗学习,使得双流网络模型生成的RGB图像更接近真实图像。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于双流网络的RGBD图像联合恢复方法,其特征在于,包括:
S1,获取用于训练和测试的RGBD图像数据库;
S2,将RGBD图像数据库划分为训练数据集及测试数据集,并对RGBD图像数据库的RGBD图像进行预处理;
S3,根据训练数据集训练双流卷积网络模型,保存训练完成的网络参数;
S4,将测试数据集输入双流卷积网络模型进行联合恢复,并测试恢复程度。
2.根据权利要求1所述的基于双流网络的RGBD图像联合恢复方法,其特征在于,所述RGBD图像数据库在无人驾驶场景下的RGBD图像数据集KITTI depth competition数据集。
3.根据权利要求1所述的基于双流网络的RGBD图像联合恢复方法,其特征在于,步骤S2包括:
将RGBD图像数据库划分为训练数据集及测试数据集,将训练数据集中的深度图像及对应RGB图像作为一组;
对每组的RGB图像及深度图像进行裁剪为合适尺寸,并进行归一化处理。
4.根据权利要求3所述的基于双流网络的RGBD图像联合恢复方法,其特征在于,根据训练数据集训练双流卷积网络模型的步骤包括:
S31,搭建双流卷积网络模型的网络结构:
S3101,输入深度图像D和RGB图像C;
S3102,将深度图像D输入归一化卷积层Nconv1,卷积核大小为3,步长为1,保持分辨率不变,再通过非线性激活得到特征图X1;
S3103,将特征图X1输入归一化卷积层Nconv2,卷积核大小为3,步长为1,保持分辨率不变,再通过非线性激活,得到特征图X2;
S3104,将特征图X2输入卷积层conv3,卷积核大小为3,步长为1,通过激活层得到特征图X3;
S3105,将特征图X3输入卷积层conv4,卷积核大小为3,步长为1,通过激活层得到特征图X4,特征图X4为深度图像提取得到的特征;
S3106,将RGB图像C输入ResBlock1,卷积核大小为3,步长为1,保持分辨率不变得到特征图Y1;
S3107,将特征图Y1输入ResBlock2,卷积核大小为3,步长为1,保持分辨率不变,得到特征图Y2;
S3108,将特征图Y2输入卷积层ResBlock3,卷积核大小为3,步长为1,保持分辨率不变得到特征图Y3;
S3109,将特征图Y3输入卷积层conv4,卷积核大小为3,步长为1,通过激活层得到特征图Y4,特征图Y4为RGB图像提取得到的特征;
S3110,将特征图X4和特征图Y4叠加输入到一个卷积组,该卷积组包含3个卷积核大小为3,步长为1的卷积层及对应的激活层,得到融合特征图F;
S3111,将融合特征F和深度图像特征X4叠加到一个卷积组,该卷积组包含4个卷积核大小为3,步长为1的卷积层及对应的激活层,得到复原的深度图像D’;
S3112,将融合特征F、深度图像特征X4和RGB图像特征Y4叠加到一个ResBlock组,该ResBlock组包含3个卷积核大小为3,步长为1的ResBlock及1个卷积核大小为3,步长为1的卷积层和对应激活层,得到复原的RGB图像C’;
S32,构造损失函数:
其中对于深度图像,采用了带有mask的内容损失函数和TV损失函数,其中内容损失函数定义如下:
其中i代表每个像素的下标,代表(D′(i)-Dg(i))的二范数的平方,M·N表示深度图像的大小,Dg是真实清晰的深度图像,D′是网络生成的深度图像,若maski=1成立,表示真实深度图像在该点存在值;若maski=1不成立,表示真实图像在该点不存在像素值,则在计算损失函数时不需要计入在内;深度图像的TV损失函数定义为如下:
对于RGB图像,采用了内容损失函数,其中内容损失函数定义如下:
此外为了更好的使生成的RGB图像保有清晰的边及减少生成RGB图像的响铃效应,设计了一种简单的梯度损失函数,其定义如下:
此外还为RGB图像引入对抗损失函数,该对抗损失函数由RGB图像的生成对抗训练机制提供,其定义如下:
其中Dis表示判别器,Ger表示RGB图像生成器,C表示输入的RGB图像,D表示输入的深度图像,Cg表示真实清晰的RGB图像;
综上,双流卷积网络模型采用的损失函数构造如下:
L=Ldcont+λ1LdTV+λ2Lccont+λ3Lcgrad+λ4Lcadv
其中λ1=λ3=1.1,λ2=1,λ4=0.55为各损失函数间的权重。
5.根据权利要求1所述的基于双流网络的RGBD图像联合恢复方法,其特征在于,步骤S4包括:
在测试数据集中读取RGBD图像数据,按照训练数据集的预处理方法对RGBD图像数据进行预处理;
将测试数据集的RGBD图像数据输入加载的双流卷积网络模型中,得到恢复的RGB图像和深度图像;
将恢复的RGB图像与真实清晰RGB图像进行对比,计算衡量指标PSNR;
将恢复的深度图像与真实深度图像进行对比,计算衡量指标RMSE。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911400820.9A CN111104532B (zh) | 2019-12-30 | 2019-12-30 | 一种基于双流网络的rgbd图像联合恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911400820.9A CN111104532B (zh) | 2019-12-30 | 2019-12-30 | 一种基于双流网络的rgbd图像联合恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104532A true CN111104532A (zh) | 2020-05-05 |
CN111104532B CN111104532B (zh) | 2023-04-25 |
Family
ID=70425216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911400820.9A Active CN111104532B (zh) | 2019-12-30 | 2019-12-30 | 一种基于双流网络的rgbd图像联合恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104532B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033645A (zh) * | 2021-03-18 | 2021-06-25 | 南京大学 | Rgb-d图像的多尺度融合深度图像增强方法及装置 |
CN114387190A (zh) * | 2022-03-23 | 2022-04-22 | 山东省计算中心(国家超级计算济南中心) | 一种基于复杂环境下的自适应图像增强方法及系统 |
CN114463760A (zh) * | 2022-04-08 | 2022-05-10 | 华南理工大学 | 一种基于双流编码的文字图像书写轨迹恢复方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009700A (zh) * | 2019-03-13 | 2019-07-12 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
-
2019
- 2019-12-30 CN CN201911400820.9A patent/CN111104532B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009700A (zh) * | 2019-03-13 | 2019-07-12 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
Non-Patent Citations (1)
Title |
---|
刘帆;刘鹏远;张峻宁;徐彬彬;: "基于双流卷积神经网络的RGB-D图像联合检测" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033645A (zh) * | 2021-03-18 | 2021-06-25 | 南京大学 | Rgb-d图像的多尺度融合深度图像增强方法及装置 |
CN114387190A (zh) * | 2022-03-23 | 2022-04-22 | 山东省计算中心(国家超级计算济南中心) | 一种基于复杂环境下的自适应图像增强方法及系统 |
CN114463760A (zh) * | 2022-04-08 | 2022-05-10 | 华南理工大学 | 一种基于双流编码的文字图像书写轨迹恢复方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111104532B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537191B (zh) | 一种基于结构光摄像头的三维人脸识别方法 | |
CN111199522A (zh) | 一种基于多尺度残差生成对抗网络的单图像盲去运动模糊方法 | |
CN111104532A (zh) | 一种基于双流网络的rgbd图像联合恢复方法 | |
CN111179187B (zh) | 基于循环生成对抗网络的单幅图像去雨方法 | |
CN110135455A (zh) | 影像匹配方法、装置及计算机可读存储介质 | |
CN115082254A (zh) | 一种变电站精益管控数字孪生系统 | |
CN113160085B (zh) | 一种基于生成对抗网络的水花遮挡图像数据集采集方法 | |
CN111325782A (zh) | 一种基于多尺度统一的无监督单目视图深度估计方法 | |
CN109788270B (zh) | 3d-360度全景图像生成方法及装置 | |
CN111105451A (zh) | 一种克服遮挡效应的驾驶场景双目深度估计方法 | |
CN114627299B (zh) | 一种模仿人类视觉系统对伪装目标检测与分割方法 | |
CN111354028B (zh) | 基于双目视觉的输电通道隐患物识别追踪方法 | |
CN114004766A (zh) | 一种水下图像增强方法、系统和设备 | |
CN112990171A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN117351311A (zh) | 一种基于双模态数据融合的变电站设备检测方法及系统 | |
CN117197388A (zh) | 一种基于生成对抗神经网络和倾斜摄影的实景三维虚拟现实场景构建方法及系统 | |
CN115082798A (zh) | 一种基于动态感受野的输电线路销钉缺陷检测方法 | |
Nouduri et al. | Deep realistic novel view generation for city-scale aerial images | |
CN111311732B (zh) | 3d人体网格获取方法及装置 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN113763261A (zh) | 一种海雾气象条件下的远小目标实时检测方法 | |
CN112232221A (zh) | 用于人物图像处理的方法、系统和程序载体 | |
CN117094895A (zh) | 图像全景拼接方法及其系统 | |
CN116524340A (zh) | 基于稠密点重建的auv近端对接单目位姿估计方法及装置 | |
CN114820316A (zh) | 一种基于深度学习的视频图像超分辨率恢复系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |