CN110084757B

CN110084757B - 一种基于生成对抗网络的红外深度图像增强方法

Info

Publication number: CN110084757B
Application number: CN201910301949.8A
Authority: CN
Inventors: 张闯; 黄晓钰; 于桂月; 孙显文; 徐盼娟
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2023-03-07
Anticipated expiration: 2039-04-15
Also published as: CN110084757A

Abstract

本发明公开了一种基于生成对抗网络的红外深度图像增强方法，包括以下步骤：选取训练网络的图像数据库；构建生成对抗网络模型；预处理图像；训练生成对抗网络。本发明利用深度学习算法中的生成对抗网络实现了红外深度图像的增强，针对红外深度图获取的困难，通过立体图像质量数据库实现生成对抗网络的训练，去除质量不好的深度图像的噪声，提高深度图像的质量，得到的增强深度图可以作为后续图像处理的标准图像，改善红外深度图畸变，质量低下的情况。

Description

一种基于生成对抗网络的红外深度图像增强方法

技术领域

本发明属于红外深度图像增强的技术领域，具体涉及一种基于生成对抗网络的红外深度图像增强方法。

背景技术

深度图像的获取主要有主动测距传感和被动测距传感两种方法。被动测距传感方法常用方法是双目立体视觉；主动测距传感相比较于被动测距传感最明显的特征是：设备本身需要发射能量来完成深度信息的采集。这也就保证了深度图像的获取独立于彩色图像的获取。近年来，主动深度传感在市面上的应用愈加丰富。主动深度传感的方法主要包括了飞行时间测距法(Time of Flight，TOF)、结构光、激光扫描等。

深度学习作为一种近几年提出的方法，在高级信息感知方面的成就远远超越了传统的机器学习方法。在图像处理的相关应用中，一个非常重要的网络结构是卷积神经网络(Convolutional neural networks，CNNs)。这种网络结构可以有效地提取二维图像中某一点邻域内的信息。因此，对于图片这种相邻像素点间具有很强相关性的数据，CNNs是非常合适的网络结果。就目前来说，CNNs已经在图像分类、分割，目标识别与检测等方向得到了成功的应用。

生成对抗网络(Generative Adversarial Networks，GAN)是深度学习算法中的一种新型的网络,通过由卷积神经网络(Convolutional neural network，CNN)构建的生成网络和辨别网络进行对抗式的训练，利用二元零和博弈的原理完成生成模型的建模,被广泛地应用到图像转换、图像处理等领域。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于生成对抗网络的红外深度图像增强方法。

为实现上述技术目的，本发明采取的技术方案为：

一种基于生成对抗网络的红外深度图像增强方法，包括以下步骤：

S1：选取训练网络的图像数据库；

S2：构建生成对抗网络模型；

S3：预处理图像；

S4：训练生成对抗网络。

为优化上述技术方案，采取的具体措施还包括：

步骤S1所述图像数据库为MCL_3D数据库。

步骤S2所述生成对抗网络由生成网络和辨别网络构成，所述生成网络和辨别网络均采用基于卷积神经网络改进的结构。

上述的生成网络包括卷积网络单元，残差网络单元以及反卷积网络单元；

从卷积阶段开始，设有实现下采样的第一卷积网络单元和第二卷积网络单元；

第一卷积网络单元和第二卷积网络单元后接有残差网络单元，用于增加网络深度；

将第一卷积网络单元和第二卷积网络单元输出的特征与残差网络单元的输出相加，接着第一反卷积网络单元实现图像的上采样，并与对应的第一个卷积网络单元的输出相加，进入第二反卷积网络单元，输出与第一卷积网络单元输出相加，进入第三反卷积网络单元，并与输入的图像相加，最终得到生成网络的输出。

上述的辨别网络采用六层卷积层，将图像下采样，最终输出值，用以区分输入图像的真假。

步骤S3所述预处理图像，具体包括：

将图像分割成9*4*6*4个128*128的失真图像块，并分别将图像块在失真图中向四周扩选64个像素点，生成256*256的失真图像块，最终得到9*4*6*4个256*256的失真图像块；

通过生成网络进行深度图像增强后，只取每个图像块中央的128*128大小，并拼接成质量增强的深度图像。

步骤S4所述生成对抗网络训练过程中，选取某一畸变失真的深度图像对进行训练,用以训练一个针对特定畸变的增强模型；每次从训练数据集中随机选取1个深度图像对输入进网络对生成网络和判别网络进行交替训练。

步骤S4所述训练生成对抗网络，具体包括：

把畸变的深度图像输入到生成网络，得到增强后的图像；

将增强后的图像与参考图像分别输入辨别网络得到辨别标签，并以所述辨别标签计算出辨别网络的损失，同时计算生成网络的损失，包括对抗损失，像素损失以及平滑损失；

辨别网络的损失和生成网络的损失依据Adam优化算法分别进行生成网络与辨别网络的参数更新，两个网络进行交替训练，最终达到收敛。

本发明具有以下有益效果：

本发明利用深度学习算法中的生成对抗网络实现了红外深度图像的增强，针对红外深度图获取的困难，通过立体图像质量数据库实现生成对抗网络的训练，去除质量不好的深度图像的噪声，提高深度图像的质量，得到的增强深度图可以作为后续图像处理的标准图像，改善红外深度图畸变，质量低下的情况。

附图说明

图1是本发明的生成网络模型示意图；

图2是本发明的辨别网络模型示意图；

图3是本发明的测试场景的加性白噪声失真深度图与增强图像；

图4是本发明的测试场景的高斯模糊失真深度图与增强图像；

图5是本发明的测试场景的JPEG失真深度图与增强图像；

图6是本发明的测试场景的JP2K失真深度图与增强图像；

图7是本发明的测试场景的采样模糊失真深度图与增强图像；

图8是本发明的测试场景的传输损失失真深度图与增强图像；

图9是本发明的用于创建MCL-3D数据库的立体图像对合成系统图；

图10是本发明的图像数据库调查结果图；

图11是本发明的实施例以OT2和OD2作为输入来生成立体图像对时的失真类型。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明的一种基于生成对抗网络的红外深度图像增强方法，包括以下步骤：

S1：选取训练网络的图像数据库；

实施例中，选择MCL_3D数据库；

MCL_3D数据库有九个场景，从每个场景的三个视图中选取一种深度图作为参考图像，该深度图对应有六种畸变失真，并且每一种失真度分为四级。

上述六种失真类型分别是加性白噪声、高斯模糊、JPEG、JPEG-2000(JP2K)压缩、采样模糊、传输损失。失真度分为四级，最弱失真为1级，严重失真为4级。本发明主要用每种场景的一个视图的深度图。针对6种不同的畸变，需要训练出6种对应的生成对抗网络。

本发明的测试场景的六种畸变的失真深度图与增强图像分别如图4-8所示。

S2：构建生成对抗网络模型；

实施例中，所述生成对抗网络由生成网络和辨别网络构成，所述生成网络和辨别网络均采用基于卷积神经网络改进的结构。

如图2所示，所述生成网络包括卷积网络单元，残差网络单元以及反卷积网络单元；

如图3所示，所述辨别网络则采用六层卷积层，将图像下采样，最终输出值，用以区分输入图像的真假。

S3：预处理图像；

实施例中，图像库中一共九种场景，采用八种场景的一个视图的深度图像进行训练，最后一种场景进行测试。

由于计算机硬件限制，将输入的图像对，参考图像与失真图像进行分割，每张图像分割成3*2个256*256的图像块，一共得到训练所用的8*4*6个256*256的参考图像块，以及8*4*6个256*256的失真图像块。对九个场景的失真图像进行测试时由于图像的分割，再合成图像时会造成分割边缘痕迹明显，因此将图像分割成9*4*6*4个128*128的失真图像块，并分别将图像块在失真图中向四周扩选64个像素点，生成256*256的失真图像块，最终得到9*4*6*4个256*256的失真图像块，通过生成网络进行深度图像增强后，只取每个图像块中央的128*128大小，并拼接成质量增强的深度图像。

S4：训练生成对抗网络；

实施例中，对于某种特定畸变的失真深度图像,将图像对参考图像与失真图像输入到生成对抗网络中,对于数据集中的图像对,每次训练随机选取一批图像对作为网络的输入,分别对生成网络和判别网络的权重进行训练；将所有训练数据按批次输入到网络进行一次训练定义为一个epoch,训练过程利用Adam优化算法，经过几千个epoch的迭代使网络达到收敛。

所述生成对抗网络训练过程中，选取某一畸变失真的深度图像对进行训练,用以训练一个针对特定畸变的增强模型；每次从训练数据集中随机选取1个深度图像对输入进网络对生成网络和判别网络进行交替训练。首先把畸变的深度图像输入到生成网络，得到增强后的图像；将增强后的图像与参考图像分别输入辨别网络得到辨别标签，并以所述辨别标签计算出辨别网络的损失，同时计算生成网络的损失，包括对抗损失，像素损失以及平滑损失；辨别网络的损失和生成网络的损失依据Adam优化算法分别进行生成网络与辨别网络的参数更新，两个网络进行交替训练，最终达到收敛。

发明的相关原理及定义如下：

图像数据库的选择：

MCL-3D:使用2D图像加深度源进行立体图像质量评估的数据库。

首先选择九个图像加深度源，并使用深度图像渲染(Depth Image BasedRendering，DIBR)技术渲染立体图像对。立体图像渲染前应用于纹理图像或深度图像的失真包括:高斯模糊、加性白噪声、下采样模糊、JPEG和JPEG-2000(JP2K)压缩和传输误差。MCL-3D数据库包含693对立体图像，其中三分之一的分辨率为1024×728，三分之二的分辨率为1920×1080。

1)立体图像对合成系统

用于创建MCL-3D数据库的立体图像对合成系统如图9所示，其中字符O、D和R分别表示原始输入、失真和渲染输出，下标字符T、D和VL和VR表示纹理图像、深度图、渲染左视图和右视图。首先，通过从3VC测试序列11中选择关键帧，获得由(OT1，OD1)，(OT2，OD2)和(OT3，OD3)表示的原始纹理图像及其相关联的三个视图的深度图，并将其用作输入。不同类型和级别的失真被引入到纹理图像或深度图中，并且失真的纹理图像或深度图被用作视图合成参考软件(VSRS)12的输入，以呈现失真的立体图像对。对于DIBR失真，将原始源OT2和OD2作为输入，并使用四种不同的渲染算法来生成立体图像对。VSRS提供了一种近乎完美的立体图像合成机制。如果给出了原始的左视图和右视图，VSRS可以在两者之间输出近乎完美的渲染视图。这使用原始纹理图像和深度图绘制的左视图和右视图，用RVL和RVR表示，将作为进一步分析的参考。

2)图像和深度源

数据库的质量高度依赖于参考图像。所选图像应具有代表性，并具有足够的多样性。3DVC标准中使用的测试序列可能是很好的候选者，它提供了一些与深度图相关联的多视图序列。本发明从这个候选集中移除了那些不寻常的空间分辨率和/或相机校准问题。

3)失真类型和级别

在采用3VC编码标准的通信系统中，失真可能来自图像采集、压缩、传输和渲染等各个阶段。高斯模糊和附加噪声可能出现在采集阶段。图像和深度图可以在压缩之前被下采样以适应多个显示设备。为了高效传输，所有图像都应该被压缩，这会导致块效应和压缩模糊。传输阶段可能会出现传输错误。将采用渲染算法来渲染多个视图以供显示。如图10所示，之前对其中一些失真进行了调查。本发明在MCL-3D数据库中包括上述所有案例的失真。

根据iTunes和VQEG的建议，本发明在主观测试中考虑了五个质量等级。原始参考立体图像具有“极好”的质量，而其它4级失真图像分别对应于“非常好”、“良好”、“一般”和“差”。

由不完美渲染引起的失真以前没有得到很好的研究。通常，只有中间视图图像及其深度图被作为输入，并且立体图像对使用钻孔技术进行渲染。在本发明的实验中，本发明以OT2和OD2作为输入来生成立体图像对。失真类型总结在图11中，并在下面进行解释。

1.高斯模糊

在获取高质量立体图像的过程中，许多参数都需要校准，其中焦距是一个关键参数。由于焦距不合适，任何视图中的纹理图像都会变得模糊。深度图可以通过设备获取，也可以通过深度估计算法估计。一些研究人员声称，渲染前对深度图进行一些模糊处理可以改善视觉体验。使用MCL-3D可以研究其有效性。本发明在OpenCV21库中使用“Gaussianblur()”函数，通过改变内核的标准差参数来添加高斯模糊效果和控制失真级别。对于四个失真级别，它们的值被设置为11、21、31、41。

2.加性白噪声

在数字图像捕获系统中，CMOS或CCD传感器用于捕获R/G/B颜色光强度。强度随后被转换为电压，并量化为数字像素值。干扰在电子电路中无处不在。它以附加白噪声的形式出现在纹理或深度图像中。OpenCV库中的“randn()”函数用于生成附加噪声，其水平通过选择四个标准偏差值(5、17、33和53)来控制。

3.采样模糊

捕获的图像可以被下采样以满足不同的空间分辨率要求。

OpenCV中的“resize()”函数用于下采样和上采样。包括四种不同的下采样模糊级别，采样率分别为5、8、11和14。

4.JPEG和JPEG 2K压缩

本发明将JPEG和JPEG 2K压缩应用于源图像。

对于JPEG压缩，本发明在OpenCV中使用了四个质量级别(30、12、8和5)的“imencode()”函数。

对于JP2K压缩，本发明使用Kakadu22包，该包具有四个失真级别的四个压缩参数(200、500、900和1500)。

5.传输损失

本发明使用OpenJPEG库对源图像进行编码，然后在JWL模式下应用不等保护和纠错码。一些位错误被添加到压缩比特流中。在解码器端，错误被部分纠正。借助于保护方法，很难在误比特率和解码图像的视觉质量之间建立简单的关系。因此，本发明使用80个种子来生成一组错误损坏的图像，并从其中选择4个以获得4个传输错误级别。

生成对抗网络模型的构建：

生成对抗网络是一种半监督式的生成模型，其原理是博弈论中的二元零和博弈。在该网络中包含两个网络，分别是生成网络和对抗网络。在训练过程中，生成网络的目标就是尽量生成与参考图像相近的图像去欺骗辨别网络。而辨别网络的目标就是尽量把生成网络生成的图像和参考图像分别开来。这样，生成网络和辨别网络构成了一个动态的“博弈过程”。最后博弈的结果在最理想的状态下，生成网络可以将失真图像质量增强，生成近似参考图像的高质量深度图像。这样本发明可以得到一个生成网络，用来将深度图像的质量增强。

本网络采用对称结构，它类似于传统的卷积神经网络框架，直接学习从输入失真图像到其相应的参考图像的端到端映射。首先采用一个平卷积层，两个下卷积块，从输入图像中提取特征属性。以及每个卷积层加入批量标准化和Lrelu激活函数，来加速学习过程以及增强模型的表达能力。其中平卷积层采用卷积核尺寸为7*7，卷积步长为1，卷积核数量为32个；第一个卷积块有两个卷积层，第一层卷积核尺寸为3*3，卷积步长为2，卷积核数量为64个，第二层卷积核尺寸为3*3，卷积步长为1，卷积核数量为64个；第二个卷积块同样有两个卷积层，第一层卷积核尺寸为3*3，卷积步长为2，卷积核数量为128个，第二层卷积核尺寸为3*3，卷积步长为1，卷积核数量为128个。

然后有五个残差网络单元，每个残差网络单元包含两个卷积层，批量标准化和Lrelu激活。每个卷积层的卷积核尺寸为3*3，卷积步长为1，卷积核数量为128个，并且每个残差网络单元的输出都与输入相加，将特征图重复利用，使网络在训练中有效且具有更好的收敛性能。同时该残差网络的输出与上述第二个卷积块的输出相加，再次将特征图重复利用，提高网络性能。

接下来是通过两个反卷积块实现上采样，以及一个反卷积层将图像恢复，并且在其中包含三个对称跳转连接，实现特征的重复利用。第一个反卷积块有两个反卷积层，第一层卷积核尺寸为3*3，卷积步长为1，卷积核数量为128个，第二层卷积核尺寸为3*3，卷积步长为2，卷积核数量为64个，同时将该反卷积块的输出与第一个卷积块的输出相加；第二个反卷积块同样有两个反卷积层，第一层卷积核尺寸为3*3，卷积步长为1，卷积核数量为64个，第二层卷积核尺寸为3*3，卷积步长为2，卷积核数量为32个，同时将该反卷积块的输出与第一个平卷积层的输出相加；最后一层反卷积层，卷积核尺寸为3*3，卷积步长为1，卷积核数量为1个，同时将该反卷积层的输出与输入的失真图相加。

辨别网络采用6个卷积层来学习图像的特征，以判别真假。前五个卷积层采用卷积核尺寸为5*5，卷积步长为2，卷积核数量分别为32个、64个、128个、256个、512个，并且都加入批量标准化以及Lrelu激活。最后一个卷积层卷积核尺寸为5*5，卷积步长为2，卷积核数量为1，并加入批量标准化以及sigmoid激活。

生成对抗网络的训练

1.生成网络的损失定义：

为确保结果具有良好的视觉效果，本网络使用如下的损失函数。具体而言，本设计中将像素到像素的欧几里得损失即像素损失，平滑损失以及对抗损失，并与适当的权重组合在一起，形成新的损失函数。新的损失函数定义如下：

LG＝λaLa+λpLp+λsLs

其中，La表示对抗损失，来自辨别网络的损失，Lp是像素损失，即生成的深度图像与参考图像之间的像素到像素的欧几里得距离，Ls是平滑损失。λa，λp和λs分别是对抗损失，像素损失和平滑损失的预定义权重。本网络中λa取0.5，λp取1，λs取1。

2.辨别网络的损失定义：

式中D(x)代表参考图像进入辨别网络的输出，D(z)代表失真图像经过生成网络的增强后进入辨别网络的输出。

3.对于某种特定畸变的失真深度图像,将图像对参考图像与失真图像输入到生成对抗网络中,对于数据集中的图像对,每次训练随机选取一批图像对作为网络的输入,分别对生成网络和判别网络的权重进行训练；将所有训练数据按批次输入到网络进行一次训练定义为一个epoch,训练过程利用Adam优化算法，经过几千次epoch的迭代使网络达到收敛。在训练过程中,选取某一畸变失真的深度图像对进行训练,用以训练一个针对特定畸变的增强模型；每次从训练数据集中随机选取1个深度图像对输入进网络对生成网络和判别网络进行交替训练,首先把把畸变的深度图像输入到生成网络，得到增强后的图像，并将增强后的图像与参考图像分别输入辨别网络得到辨别标签，并以此计算出辨别网络的损失，同时计算生成网络的损失，包括对抗损失，像素损失以及平滑损失。这两种损失依据Adam优化算法分别进行生成网络与辨别网络的参数更新，两个网络进行交替训练，最终达到收敛。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于生成对抗网络的红外深度图像增强方法，其特征在于：包括以下步骤：

S1：选取训练网络的图像数据库；

S2：构建生成对抗网络模型，所述生成对抗网络采用半监督式的生成模型，包含生成网络和辨别网络，在训练过程中，生成网络的目标为生成与参考图像相近的图像去欺骗辨别网络，辨别网络的目标是把生成网络生成的图像和参考图像分别开来，从而生成网络和辨别网络构成一个动态的博弈过程，最后博弈的结果在最理想的状态下，生成网络将失真图像质量增强，生成近似参考图像的高质量深度图像；

所述生成网络采用对称结构，直接学习从输入失真图像到其相应的参考图像的端到端映射：首先采用一个平卷积层，两个下卷积块，从输入图像中提取特征属性，每个卷积层加入批量标准化和Lrelu激活函数，来加速学习过程以及增强模型的表达能力；

其中，平卷积层采用卷积核尺寸为7*7，卷积步长为1，卷积核数量为32个；

第一个卷积块有两个卷积层，第一层卷积核尺寸为3*3，卷积步长为2，卷积核数量为64个，第二层卷积核尺寸为3*3，卷积步长为1，卷积核数量为64个；

第二个卷积块有两个卷积层，第一层卷积核尺寸为3*3，卷积步长为2，卷积核数量为128个，第二层卷积核尺寸为3*3，卷积步长为1，卷积核数量为128个；

然后设有五个残差网络单元，每个残差网络单元包含两个卷积层，批量标准化和Lrelu激活，每个卷积层的卷积核尺寸为3*3，卷积步长为1，卷积核数量为128个，并且每个残差网络单元的输出都与输入相加，将特征图重复利用，使网络在训练中有效且具有更好的收敛性能，同时该残差网络单元的输出与上述第二个卷积块的输出相加，再次将特征图重复利用，提高网络性能；

接下来通过两个反卷积块实现上采样，以及一个反卷积层将图像恢复，并且在其中包含三个对称跳转连接，实现特征的重复利用，其中，第一个反卷积块有两个反卷积层，第一层卷积核尺寸为3*3，卷积步长为1，卷积核数量为128个，第二层卷积核尺寸为3*3，卷积步长为2，卷积核数量为64个，同时将该反卷积块的输出与第一个卷积块的输出相加；第二个反卷积块同样有两个反卷积层，第一层卷积核尺寸为3*3，卷积步长为1，卷积核数量为64个，第二层卷积核尺寸为3*3，卷积步长为2，卷积核数量为32个，同时将该反卷积块的输出与第一个平卷积层的输出相加；最后一层反卷积层，卷积核尺寸为3*3，卷积步长为1，卷积核数量为1个，同时将该反卷积层的输出与输入的失真图相加；

辨别网络采用6个卷积层来学习图像的特征，以判别真假，其中，前5个卷积层采用卷积核尺寸为5*5，卷积步长为2，卷积核数量分别为32个、64个、128个、256个、512个，并且都加入批量标准化以及Lrelu激活，最后个卷积层卷积核尺寸为5*5，卷积步长为2，卷积核数量为1，并加入批量标准化以及sigmoid激活；

S3：预处理图像，将图像分割成9*4*6*4个128*128的失真图像块，并分别将图像块在失真图中向四周扩选64个像素点，生成256*256的失真图像块，最终得到9*4*6*4个256*256的失真图像块；

通过生成网络进行深度图像增强后，只取每个图像块中央的128*128大小，并拼接成质量增强的深度图像；

S4：训练生成对抗网络。

2.根据权利要求1所述的一种基于生成对抗网络的红外深度图像增强方法，其特征在于：步骤S1所述图像数据库为MCL_3D数据库。

3.根据权利要求1所述的一种基于生成对抗网络的红外深度图像增强方法，其特征在于：步骤S2所述生成对抗网络由生成网络和辨别网络构成，所述生成网络和辨别网络均采用基于卷积神经网络改进的结构。

4.根据权利要求3所述的一种基于生成对抗网络的红外深度图像增强方法，其特征在于：所述生成网络包括卷积网络单元，残差网络单元以及反卷积网络单元；

5.根据权利要求3所述的一种基于生成对抗网络的红外深度图像增强方法，其特征在于：所述辨别网络采用六层卷积层，将图像下采样，最终输出值，用以区分输入图像的真假。

6.根据权利要求1所述的一种基于生成对抗网络的红外深度图像增强方法，其特征在于：步骤S4所述生成对抗网络训练过程中，选取某一畸变失真的深度图像对进行训练,用以训练一个针对特定畸变的增强模型；每次从训练数据集中随机选取1个深度图像对输入进网络对生成网络和判别网络进行交替训练。

7.根据权利要求6所述的一种基于生成对抗网络的红外深度图像增强方法，其特征在于：步骤S4所述训练生成对抗网络，具体包括：

把畸变的深度图像输入到生成网络，得到增强后的图像；