CN107103590B - 一种基于深度卷积对抗生成网络的图像反射去除方法 - Google Patents
一种基于深度卷积对抗生成网络的图像反射去除方法 Download PDFInfo
- Publication number
- CN107103590B CN107103590B CN201710173436.4A CN201710173436A CN107103590B CN 107103590 B CN107103590 B CN 107103590B CN 201710173436 A CN201710173436 A CN 201710173436A CN 107103590 B CN107103590 B CN 107103590B
- Authority
- CN
- China
- Prior art keywords
- image
- arbiter
- network
- input
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000010276 construction Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 75
- 238000000034 method Methods 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 19
- 230000004069 differentiation Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000003475 lamination Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 2
- 230000015556 catabolic process Effects 0.000 claims description 2
- 238000006731 degradation reaction Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 238000007796 conventional method Methods 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000003115 biocidal effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度卷积对抗生成网络的图像反射去除方法,包括步骤:1)数据获取;2)数据处理;3)模型构建;4)损失定义;5)模型训练;6)模型验证。本发明结合了深度卷积神经网络提取高层图像语义信息的能力以及对抗生成网络灵活的损失函数定义能力,突破了传统方法仅使用低层像素信息的限制,因此对一般化的图像反射去除问题具有更强的适应能力。
Description
技术领域
本发明涉及计算机图像处理的技术领域,尤其是指一种基于深度卷积对抗生成网络的图像反射去除方法。
背景技术
当我们在室内透过玻璃拍摄室外的景物时,得到的照片中往往会包含有室内物体的反射影像。专业摄影师可能会选择使用偏振镜等专业的仪器设备来解决这个问题。但是对于普通消费者而言,使用反射去除算法来对照片进行后期处理会是更可行的做法。
一张带有反射影像的照片可以看做是由一张反射图像(室内景物)和一张目标图像(室外景物)叠加而成的混合图像。反射去除问题的本质是从这样一张混合图像中分解得到两张图像。这个问题有明显的不适定性(ill-posed),即对于一张给定的混合图像,可能的分解方法是不唯一的。为了求解这样的不适定问题,我们需要为原问题增加足够的先验知识(priori knowledge)作为额外的约束,使得求解得到的结果尽可能地接近目标结果。
在过去的研究中,由于缺乏可靠的高层语义信息作为先验知识,大部分工作中使用的先验知识都是基于低层像素信息的。例如,在论文Learning to perceivetransparency from the statistics of natural scenes中,Levin等使用的是自然图像的边缘直方图和角点直方图的统计规律;在论文Single image layer separation usingrelative smoothness中,Li等针对的是反射图像相比目标图像更加平滑这一特殊情况并以此作为先验约束;而在论文Reflection removal using ghosting cues中,Shih等使用的是特定的反射图像中出现的鬼影(ghosting)这一约束。
Levin等的方法可以在场景简单并且纹理稀疏的图像上取得较好的效果,但是对于更一般化的、具有丰富纹理信息的自然图像就不太适用了。这是因为自然图像之间的差异性很大,其分布无法简单地用统一的直方图来刻画。而Li等的方法和Shih等的方法针对的是在特定条件下拍摄的图像,这些条件并不是广泛存在的,因此这些方法的使用场景具有很大的限制性。
发明内容
本发明的目的在于克服现有技术的不足与缺点,提出了一种基于深度卷积对抗生成网络的图像反射去除方法,该方法结合了深度卷积神经网络提取高层图像语义信息的能力以及对抗生成网络灵活的损失函数定义能力,突破了传统方法仅使用低层像素信息的限制。
为实现上述目的,本发明所提供的技术方案为:一种基于深度卷积对抗生成网络的图像反射去除方法,包括以下步骤:
1)数据获取
训练深度卷积对抗生成网络需要大量的训练数据,因此需要使用大规模的自然图像数据集,得到的图像数据集需要划分为训练数据集以及验证数据集,其中训练数据集用于模型训练阶段,验证数据集用于模型验证阶段;
2)数据处理
将图像数据集的图像通过预处理转化为训练深度卷积对抗生成网络所需要的形式;
3)模型构建
根据训练目标以及模型的输入输出形式,构造出一个适用于图像反射去除问题的深度卷积对抗生成网络;
4)损失定义
根据训练目标以及模型的架构,定义出所需的损失函数;
5)模型训练
初始化各层网络的参数,持续输入训练样本,根据损失函数计算出网络的损失值,通过反向传播计算出各层网络的参数的梯度,通过随机梯度下降算法对各层网络的参数进行更新;
6)模型验证
使用验证数据对训练得到的模型进行验证,测试其泛化性能。
所述步骤2)包括以下步骤过程:
2.1)将数据集中的图像在保持长宽比例不变的情况下缩放到较短的边为144像素大小;
2.2)随机在缩放后的图像上裁剪得到长宽均为128像素大小的正方形图像;
2.3)以0.5的概率随机水平翻转裁剪后的图像;
2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。
所述步骤3)包括以下步骤过程:
3.1)构造编码器模型
编码器是用于从输入的混合图像中提取出高层的语义信息并保存到一个低维的编码中,编码器的输入为3×128×128的混合图像,输出为1024×4×4的低维编码,为了实现从输入到输出的转换,编码器包含了多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活层组成,其中,卷积层设置卷积步长为2,在增大感受野的同时逐渐减小了图像的尺寸,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到了稳定和加速模型训练的作用,非线性激活层的加入防止了模型退化为简单的线性模型,提高了模型的描述能力;
3.2)构造解码器模型
解码器是用于从低维的编码中拆解并还原出反射图像和目标图像,解码器的输入为1024×4×4的低维编码,输出为6×128×128的复原图像,得到的复原图像能够简单地直接拆解为两张3×128×128的输出图像,这两张拆解得到的图像即为还原出来的反射图像和目标图像;为了实现低维编码到复原图像的转换,解码器包含了多个级联的上采样层,上采样层由串联的反卷积层、批量正则化层、以及非线性激活层组成,其中,反卷积层设置反卷积步长为2,起到了从低维编码放大图像尺寸的作用,批量正则化层和非线性激活层的作用与编码器中同样;
3.3)构造判别器模型
判别器是用于约束解码器的输出结果,使其输出更接近自然图像;判别器的输入是两张3×128×128的图像,输出为一个用于指示输入的类型的标量;判别器的结构与编码器一样,也由级联的下采样层组成,所不同的是,判别器的首层输入是由两张输入图像叠加得到的6×128×128的层叠图像,而输出则是单一的标量;输入判别器的两张图像能够是由编解码器拆解还原得到的反射图像和目标图像,也能够是从数据集中抽取得到的原始图像;判别器的作用是读取输入的两张图像,尽可能地区分出它们是复原后的图像还是原始图像;如果判断是原始图像,则判别器应该输出一个尽可能大的值;相反,如果判断是复原图像,则判别器应该输出一个尽可能小的值。
所述步骤4)包括以下步骤过程:
4.1)定义判别器的损失函数
判别器的作用是判定输入图像属于复原图像还是原始图像;判别器对于输入的原始图像和复原图像分别输出的判定值的差越大越能说明判别器能较好地区分二者,因此判别器的效用函数能够定义为二者均值的差值;为了优化判别器,系统需要最大化其效用函数,因此判别器的损失函数能够定义为其效用函数的相反数,这样,当判别器的效用函数取最大值时,其损失函数将取得最小值,这表明判别器已经训练到最优;
4.2)定义编解码器的重建损失函数
重建损失函数的作用是约束编解码器的重建输出,使之与原始图像尽可能接近,重建损失函数能够定义为原始图像之和与复原图像之和的像素差的欧几里得距离的均值;
4.3)定义编解码器的判别损失函数
编解码器的作用是从输入的混合图像中拆解还原出原始的反射图像和目标图像,步骤4.2)中定义的重建损失函数仅能约束拆解的两张图像的和等于原混合图像,但是并不能保证拆解出来的图像各自仍然类似与原始的自然图像;为此,系统引入了判别损失函数,这个函数的计算方法是将由编解码器拆解得到的两张图像输入到判别器中,判别器将给出一个数值;这个数值越大越能说明编解码器的拆解效果好,使得拆解的图像“欺骗”了判别器,使之误以为是原始的图像;否则说明拆解效果较差,使得判别器“看出”了拆解图像与原始图像的明显差异;因此,从判别器得到的这个数值的相反数能够作为编解码器的判别损失函数,判别损失函数的值越小,就说明拆解得到的反射图像和目标图像越接近自然图像,其中的混合图像的痕迹就越小;
4.4)定义编解码器的总损失函数
步骤4.2)和步骤4.3)中的定义的两个编解码器的损失函数能够通过加权的方式组合起来,使得拆解得到的两张图像既在像素值上与原图像保持一致,又具有自然图像的特征;
所述步骤5)包括以下步骤过程:
5.1)初始化模型各层参数
各层参数的初始化采用的是传统的深度卷积对抗生成网络中采用的方法,即对卷积层和反卷积层的参数采用均值为0,标准差为0.02的高斯分布进行初始化,而对批量正则化层的参数则采用均值为1,标准差为0.02的高斯分布进行初始化;
5.2)训练判别器网络
随机取出两张经过步骤2)处理的原始图像,将两张图像通过对应像素相加再归一化到[-1,1]的范围内即可得到编解码器需要的混合输入图像,将得到的混合图像输入到编解码器网络中能够得到拆解后的两张图像,将拆解得到的两张图像输入判别器网络中能够得到判别器网络对复原图像的判别值,再随机取出两张经过步骤2)处理的原始图像,直接输入判别器网络中能够得到判别器网络对原始图像的判别值,将得到的复原图像的判别值和原始图像的判别值进行步骤4.1)的计算能够得到判别器的损失函数的值,将该损失通过反向传播能够得到判别器网络中各层参数的梯度,再通过随机梯度下降算法使用得到的梯度对各层参数进行优化即可实现一轮判别器网络的训练;
5.3)训练编解码器网络
随机取出两张经过步骤2)处理的原始图像,类似于步骤5.2)的做法,将两张原始图像相加再归一化得到的混合图像输入编解码器网络中能够得到拆解得到的两张图像,拆解后得到的图像经过步骤4.2)的计算能够得到重建损失函数的值,将拆解后的得到的图像输入判别器网络中,经过步骤4.3)的计算能够得到判别损失函数的值,将重建损失函数的值与判别损失函数的值经过步骤4.4)的计算能够得到编解码器总损失函数的值,将该损失通过反向传播能够得到编解码器网络中各层参数的梯度,再通过随机梯度下降算法使用得到的梯度对各层参数进行优化即可实现一轮编解码器网络的训练;
5.4)持续迭代训练
重复步骤5.2)和步骤5.3)直到网络拆解混合图像的能力达到预期的目标。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明能够处理一般化的具有复杂纹理信息的图像。现有的基于低层像素信息的方法(如论文Learning to perceive transparency from the statistics of naturalscenes中的方法)一般使用的是图像的像素信息统计量(如边缘直方图和角点直方图)作为先验约束,复杂的纹理信息会对像素信息统计量的计算产生干扰进而劣化算法的效果。本发明使用深度卷积神经网络作为编解码器,具有同时提取低层像素信息和高层语义信息的能力,因为高层语义信息对低层图像纹理不敏感,因此突破了现有方法的限制,适用于一般化的具有复杂纹理的图像。
2、本发明不要求反射图像具有特殊性。现有的使用基于像素间欧几里得距离的重建损失函数的方法(如论文Single image layer separation using relativesmoothness和论文Reflection removal using ghosting cues中的方法)要求反射图像在像素级别上与目标图像具有明显的差异性(如相比目标图像,反射图像比较模糊,或者反射图像具有鬼影),否则将在问题求解时出现困难,使得拆解得到的目标图像和反射图像二者非常相似,即拆解结果会趋于平均化。本发明使用对抗生成网络的求解框架,具有灵活的损失函数定义能力,除了使用像素间欧几里得距离的重建损失函数外,本发明中使用的由判别器网络得到的判别损失函数可以同时约束拆解得到的目标图像和反射图像为自然图像并且二者具有不同的语义,因此避免了现有方法的对处理不具备像素级别差异性的目标图像和反射图像时导致的平均化问题。
3、本发明求解时不需要迭代优化,具有快速的处理能力。现有的基于迭代优化求解的方法(如论文Learning to perceive transparency from the statistics ofnatural scenes、论文Single image layer separation using relative smoothness和论文Reflection removal using ghosting cues中的方法)在对输入图像进行求解时需要使用优化算法进行反复多次迭代,这影响了算法的处理速度。本发明使用的深度卷积神经网络为端到端(end-to-end)的网络结构,将迭代优化过程转移到训练阶段,而在求解阶段,网络已经训练完毕,因此只要将图像直接传入网络的输入端,经过简单的正向传播即可从输出端得到拆解后的目标图像和反射图像,因此具有快速的处理能力。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于深度卷积对抗生成网络的图像反射去除方法,其具体情况如下:
步骤1,获取公开的数据集并将其划分为训练数据集和验证数据集,分别用于模型训练阶段和模型验证阶段。
步骤2,对数据集中的图像进行预处理,使之满足深度卷积对抗生成网络的输入要求,包括以下步骤:
步骤21,在保持图像长宽比例的前提下将图像缩放到短边长度为144像素大小。
步骤22,随机裁剪得到大小为128×128像素大小的正方形图像。
步骤23,以0.5的概率水平翻转图像。
步骤24,将图像从[0,255]归一化到[-1,1]范围内。
步骤3,构造深度卷积对抗生成网络的编码器模型、解码器模型以及判别器模型,包括以下步骤:
步骤31,构造编码器模型。编码器的输入为3×128×128的混合图像,输出为1024×4×4的低维编码。编码器包含多个级联的下采样层。下采样层由串联的卷积层、批量正则化层和非线性激活层组成。以下是一个编码器模型的具体例子。
其中,Sequential()表示模块以顺序串联的方式组合起来;Conv2d(in_channels,out_channels,kernel_size,stride)表示一个卷积层模块,in_channels和out_channels表示该模块的输入通道数和输出通道数,kernel_size和stride表示其卷积核大小以及卷积步长;BatchNorm2d()表示一个批量正则化模块;LeakyReLU(negative_slope)表示一个非线性激活模块。
步骤32,构造解码器模型。解码器的输入是1024×4×4的低维编码,输出为6×128×128的复原图像。解码器包含多个级联的上采样层。上采样层由串联的反卷积层、批量正则化层和非线性激活层组成。以下是一个解码器模型的具体例子。
其中,Sequential()、BatchNorm2d()以及LeakyReLU()的作用与上述步骤中相同;ConvTranspose2d(in_channels,out_channels,kernel_size,stride)表示一个反卷积模块,in_channels和out_channels表示该模块的输入通道数和输出通道数,kernel_size和stride表示其卷积核大小以及卷积步长;Tanh()表示一个输出范围为[-1,1]的非线性激活模块。
步骤33,构造判别器模型。判别器的输入是两张3×128×128的图像,通过叠加得到6×128×128的层叠图像,输出是单一的标量。与编码器的结构类似,判别器也由级联的下采样层组成。以下是一个判别器模型的具体例子。
其中,Sequential()、BatchNorm2d()以及LeakyReLU()的作用与上述步骤中相同。
步骤4,定义判别器、编解码器的损失函数,包括以下步骤:
步骤41,定义判别器的损失函数。判别器的损失函数可以被定义为判别器对原始图像和复原图像的输出值的差的相反数。用公式表示如下:
Loss of Discriminator=-(Discriminator(x1,x2)-Discriminator(Decoder(Encoder(x3+x4))))
式中,x1、x2、x3、x4均为原始图像,Decoder(Encoder(x3+x4))表示将x3和x4两张原始图像合成混合图像后输入编解码器后得到的复原图像。
步骤42,定义编解码器的重建损失函数。编解码器的重建损失函数可以定义为原始图像与复原图像之和的像素差的欧几里得距离的均值。用公式表示如下:
Reconstruction Loss of Encoder-Decoder=mean(square((x1+x2)-(y1+y2)))
式中,mean(square())表示像素间欧几里得距离的均值;x1和x2为原始图像;y1和y2是x1和x2经过混合后经由编解码器拆解得到的复原图像,即y1,y2=Decoder(Encoder(x1+x2))。
步骤43,定义编解码器的判别损失函数。编解码器的判别损失函数可以定义为编解码器拆解得到的复原图像输入到判别器后得到的判别数值的相反数。用公式表示如下:
Discrimination Loss of Encoder-Decoder=-(Discriminator(Decoder(Encoder(x1+x2))))
式中,x1和x2为原始图像,Decoder(Encoder(x1+x2))表示将x1和x2合成混合图像后输入编解码器后得到的复原图像。
步骤44,定义编解码器的总损失函数。编解码器的总损失函数可以定义为其重建损失函数和判别损失函数的加权和。用公式表示如下
Loss of Encoder-Decoder=w1*Reconstruction Loss of Encoder-Decoder+w2*Discrimination Loss of Encoder-Decoder
式中,w1和w2为重建损失函数和判别损失函数各自的权重。
步骤5,训练编解码器模型和判别器模型,包括以下步骤:
步骤51,以均值为0,标准差为0.02的高斯分布初始化卷积层和反卷积层的参数。以均值为1,标准差为0.02的高斯分布初始化批量正则化层的参数。
步骤52,训练判别器网络。随机取出4张经过步骤2处理的原始图像,记为x1、x2、x3、x4。将x1和x2直接输入判别器网络可以得到步骤41中Discriminator(x1,x2)的值。用x3和x4合成混合图像输入编解码器网络,可以得到拆解后的复原图像y3和y4,即y3,y4=Decoder(Encoder(x3+x4))。将复原图像输入判别器网络即可得到步骤41中Discriminator(Decoder(Encoder(x3+x4)))的值。将得到的这两个值通过步骤41中的组合方式即可求得判别器的损失函数的值。将该损失在判别器网络中进行反向传播可以计算得到判别器网络中各层参数的梯度。通过随机梯度下降算法使用得到的梯度对各层的参数进行优化即可实现一轮判别器网络的训练。
步骤53,训练编解码器网络。随机取出两张经过步骤2处理的原始图像,记为x1和x2。将x1和x2合成混合图像输入编解码器网络,可以得到拆解后的复原图像y1和y2,即y1,y2=Decoder(Encoder(x1+x2))。通过计算公式mean(square((x1+x2)-(y1+y2)))即可得到步骤42中编解码器网络的重建损失函数的值。将拆解后的复原图像输入判别器网络中,对得到的值取相反数即可得到步骤43中编解码器网络的判别损失函数的值-(Discriminator(Decoder(Encoder(x1+x2))))。将得到的重建损失函数的值和判别损失函数的值通过步骤44中的加权求和可以得到编解码器网络的总损失函数的值。将该损失在编解码器网络中进行反向传播可以计算得到编解码器网络中各层参数的梯度。通过随机梯度下降算法使用得到的梯度对各层的参数进行优化即可实现一轮编解码器网络的训练。
步骤54,持续迭代训练。持续执行步骤52和步骤53知道网络分离混合图像的能力达到预期的目标。
步骤6,使用验证数据集中的数据对训练得到的模型进行验证,测试其泛化性能。具体做法是随机从验证数据集中取出两张经过步骤2处理的原始图像,将其对应像素值相加再归一化可以得到合成的混合图像。将得到的混合图像输入编解码器网络中可以得到拆解后的反射图像和目标图像。在得到拆解的图像后,可以通过肉眼对比或者计算信噪比等方式判断编解码器的复原混合图像的能力。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (3)
1.一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,包括以下步骤:
1)数据获取
训练深度卷积对抗生成网络需要大量的训练数据,因此需要使用大规模的自然图像数据集,得到的图像数据集需要划分为训练数据集以及验证数据集,其中训练数据集用于模型训练阶段,验证数据集用于模型验证阶段;
2)数据处理
将图像数据集的图像通过预处理转化为训练深度卷积对抗生成网络所需要的形式;
3)模型构建
根据训练目标以及模型的输入输出形式,构造出一个适用于图像反射去除问题的深度卷积对抗生成网络,包括以下步骤过程:
3.1)构造编码器模型
编码器是用于从输入的混合图像中提取出高层的语义信息并保存到一个低维的编码中,编码器的输入为3×128×128的混合图像,输出为1024×4×4的低维编码,为了实现从输入到输出的转换,编码器包含了多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活层组成,其中,卷积层设置卷积步长为2,在增大感受野的同时逐渐减小了图像的尺寸,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到了稳定和加速模型训练的作用,非线性激活层的加入防止了模型退化为简单的线性模型,提高了模型的描述能力;
3.2)构造解码器模型
解码器是用于从低维的编码中拆解并还原出反射图像和目标图像,解码器的输入为1024×4×4的低维编码,输出为6×128×128的复原图像,得到的复原图像能够简单地直接拆解为两张3×128×128的输出图像,这两张拆解得到的图像即为还原出来的反射图像和目标图像;为了实现低维编码到复原图像的转换,解码器包含了多个级联的上采样层,上采样层由串联的反卷积层、批量正则化层、以及非线性激活层组成,其中,反卷积层设置反卷积步长为2,起到了从低维编码放大图像尺寸的作用,批量正则化层和非线性激活层的作用与编码器中同样;
3.3)构造判别器模型
判别器是用于约束解码器的输出结果,使其输出更接近自然图像;判别器的输入是两张3×128×128的图像,输出为一个用于指示输入的类型的标量;判别器的结构与编码器一样,也由级联的下采样层组成,所不同的是,判别器的首层输入是由两张输入图像叠加得到的6×128×128的层叠图像,而输出则是单一的标量;输入判别器的两张图像能够是由编解码器拆解还原得到的反射图像和目标图像,也能够是从数据集中抽取得到的原始图像;判别器的作用是读取输入的两张图像,区分出它们是复原后的图像还是原始图像;如果判断是原始图像,则判别器应该输出一个大的值;相反,如果判断是复原图像,则判别器应该输出一个小的值;
4)损失定义
根据训练目标以及模型的架构,定义出所需的损失函数;
5)模型训练
初始化各层网络的参数,持续输入训练样本,根据损失函数计算出网络的损失值,通过反向传播计算出各层网络的参数的梯度,通过随机梯度下降算法对各层网络的参数进行更新;
6)模型验证
使用验证数据对训练得到的模型进行验证,测试其泛化性能。
2.根据权利要求1所述的一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,所述步骤2)包括以下步骤过程:
2.1)将数据集中的图像在保持长宽比例不变的情况下缩放到较短的边为144像素大小;
2.2)随机在缩放后的图像上裁剪得到长宽均为128像素大小的正方形图像;
2.3)以0.5的概率随机水平翻转裁剪后的图像;
2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。
3.根据权利要求1所述的一种基于深度卷积对抗生成网络的图像反射去除方法,其特征在于,所述步骤4)包括以下步骤过程:
4.1)定义判别器的损失函数
判别器的作用是判定输入图像属于复原图像还是原始图像;判别器对于输入的原始图像和复原图像分别输出的判定值的差越大越能说明判别器能较好地区分二者,因此判别器的效用函数能够定义为二者均值的差值;为了优化判别器,系统需要最大化其效用函数,因此判别器的损失函数能够定义为其效用函数的相反数,这样,当判别器的效用函数取最大值时,其损失函数将取得最小值,这表明判别器已经训练到最优;
4.2)定义编解码器的重建损失函数
重建损失函数的作用是约束编解码器的重建输出,使之与原始图像尽可能接近,重建损失函数能够定义为原始图像之和与复原图像之和的像素差的欧几里得距离的均值;
4.3)定义编解码器的判别损失函数
编解码器的作用是从输入的混合图像中拆解还原出原始的反射图像和目标图像,步骤4.2)中定义的重建损失函数仅能约束拆解的两张图像的和等于原混合图像,但是并不能保证拆解出来的图像各自仍然类似与原始的自然图像;为此,系统引入了判别损失函数,这个函数的计算方法是将由编解码器拆解得到的两张图像输入到判别器中,判别器将给出一个数值;这个数值越大越能说明编解码器的拆解效果好,否则说明拆解效果差;因此,从判别器得到的这个数值的相反数能够作为编解码器的判别损失函数,判别损失函数的值越小,就说明拆解得到的反射图像和目标图像越接近自然图像,其中的混合图像的痕迹就越小;
4.4)定义编解码器的总损失函数
步骤4.2)和步骤4.3)中的定义的两个编解码器的损失函数能够通过加权的方式组合起来,使得拆解得到的两张图像既在像素值上与原图像保持一致,又具有自然图像的特征;
所述步骤5)包括以下步骤过程:
5.1)初始化模型各层参数
各层参数的初始化采用的是传统的深度卷积对抗生成网络中采用的方法,即对卷积层和反卷积层的参数采用均值为0,标准差为0.02的高斯分布进行初始化,而对批量正则化层的参数则采用均值为1,标准差为0.02的高斯分布进行初始化;
5.2)训练判别器网络
随机取出两张经过步骤2)处理的原始图像,将两张图像通过对应像素相加再归一化到[-1,1]的范围内即可得到编解码器需要的混合输入图像,将得到的混合图像输入到编解码器网络中能够得到拆解后的两张图像,将拆解得到的两张图像输入判别器网络中能够得到判别器网络对复原图像的判别值,再随机取出两张经过步骤2)处理的原始图像,直接输入判别器网络中能够得到判别器网络对原始图像的判别值,将得到的复原图像的判别值和原始图像的判别值进行步骤4.1)的计算能够得到判别器的损失函数的值,将该损失通过反向传播能够得到判别器网络中各层参数的梯度,再通过随机梯度下降算法使用得到的梯度对各层参数进行优化即可实现一轮判别器网络的训练;
5.3)训练编解码器网络
随机取出两张经过步骤2)处理的原始图像,将两张原始图像相加再归一化得到的混合图像输入编解码器网络中能够得到拆解得到的两张图像,拆解后得到的图像经过步骤4.2)的计算能够得到重建损失函数的值,将拆解后的得到的图像输入判别器网络中,经过步骤4.3)的计算能够得到判别损失函数的值,将重建损失函数的值与判别损失函数的值经过步骤4.4)的计算能够得到编解码器总损失函数的值,将该损失通过反向传播能够得到编解码器网络中各层参数的梯度,再通过随机梯度下降算法使用得到的梯度对各层参数进行优化即可实现一轮编解码器网络的训练;
5.4)持续迭代训练
重复步骤5.2)和步骤5.3)直到网络拆解混合图像的能力达到预期的目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173436.4A CN107103590B (zh) | 2017-03-22 | 2017-03-22 | 一种基于深度卷积对抗生成网络的图像反射去除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710173436.4A CN107103590B (zh) | 2017-03-22 | 2017-03-22 | 一种基于深度卷积对抗生成网络的图像反射去除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107103590A CN107103590A (zh) | 2017-08-29 |
CN107103590B true CN107103590B (zh) | 2019-10-18 |
Family
ID=59675602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710173436.4A Active CN107103590B (zh) | 2017-03-22 | 2017-03-22 | 一种基于深度卷积对抗生成网络的图像反射去除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107103590B (zh) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730458A (zh) * | 2017-09-05 | 2018-02-23 | 北京飞搜科技有限公司 | 一种基于生成式对抗网络的模糊人脸重建方法及系统 |
US11263525B2 (en) | 2017-10-26 | 2022-03-01 | Nvidia Corporation | Progressive modification of neural networks |
US11250329B2 (en) | 2017-10-26 | 2022-02-15 | Nvidia Corporation | Progressive modification of generative adversarial neural networks |
CN108009628B (zh) * | 2017-10-30 | 2020-06-05 | 杭州电子科技大学 | 一种基于生成对抗网络的异常检测方法 |
CN107767384B (zh) * | 2017-11-03 | 2021-12-03 | 电子科技大学 | 一种基于对抗训练的图像语义分割方法 |
CN108021978A (zh) * | 2017-11-14 | 2018-05-11 | 华南理工大学 | 一种基于wgan模型的空洞卷积方法 |
CN107944546A (zh) * | 2017-11-14 | 2018-04-20 | 华南理工大学 | 一种基于原始生成对抗网络模型的残差网络方法 |
CN108021979A (zh) * | 2017-11-14 | 2018-05-11 | 华南理工大学 | 一种基于原始生成对抗网络模型的特征重标定卷积方法 |
CN107943751A (zh) * | 2017-11-14 | 2018-04-20 | 华南理工大学 | 一种基于深度卷积对抗网络模型的独立通道卷积方法 |
CN107943752A (zh) * | 2017-11-14 | 2018-04-20 | 华南理工大学 | 一种基于文本‑图像生成对抗网络模型的可变形卷积方法 |
CN107845062B (zh) * | 2017-11-14 | 2021-08-17 | 北京小米移动软件有限公司 | 图像生成方法及装置 |
CN107871142A (zh) * | 2017-11-14 | 2018-04-03 | 华南理工大学 | 一种基于深度卷积对抗网络模型的空洞卷积方法 |
CN107943750A (zh) * | 2017-11-14 | 2018-04-20 | 华南理工大学 | 一种基于wgan模型的分解卷积方法 |
CN107993190B (zh) * | 2017-11-14 | 2020-05-19 | 中国科学院自动化研究所 | 图像水印去除装置 |
CN107886162A (zh) * | 2017-11-14 | 2018-04-06 | 华南理工大学 | 一种基于wgan模型的可变形卷积核方法 |
CN108009058A (zh) * | 2017-11-17 | 2018-05-08 | 阿里巴巴集团控股有限公司 | 异常设备识别方法及装置和电子设备 |
CN107862668A (zh) * | 2017-11-24 | 2018-03-30 | 河海大学 | 一种基于gnn的文物图像复原方法 |
CN108881707B (zh) * | 2017-11-28 | 2020-11-10 | 北京旷视科技有限公司 | 图像生成方法、装置、系统和存储介质 |
CN108564097B (zh) * | 2017-12-05 | 2020-09-22 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN108122209B (zh) * | 2017-12-14 | 2020-05-15 | 浙江捷尚视觉科技股份有限公司 | 一种基于对抗生成网络的车牌去模糊方法 |
CN108229349B (zh) * | 2017-12-21 | 2020-09-01 | 中国科学院自动化研究所 | 网纹人脸图像识别装置 |
CN108171762B (zh) * | 2017-12-27 | 2021-10-12 | 河海大学常州校区 | 一种深度学习的压缩感知同类图像快速重构系统与方法 |
CN108257116A (zh) * | 2017-12-30 | 2018-07-06 | 清华大学 | 一种生成对抗图像的方法 |
CN108399625B (zh) * | 2018-02-28 | 2020-06-30 | 电子科技大学 | 一种基于深度卷积生成对抗网络的sar图像定向生成方法 |
CN108537742B (zh) * | 2018-03-09 | 2021-07-09 | 天津大学 | 一种基于生成对抗网络的遥感图像全色锐化方法 |
CN108510456B (zh) * | 2018-03-27 | 2021-12-21 | 华南理工大学 | 基于感知损失的深度卷积神经网络的草图简化方法 |
CN108537801A (zh) * | 2018-03-29 | 2018-09-14 | 山东大学 | 基于生成对抗网络的视网膜血管瘤图像分割方法 |
CN108648197B (zh) * | 2018-04-12 | 2021-09-07 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
CN108520504B (zh) * | 2018-04-16 | 2020-05-19 | 湘潭大学 | 一种基于生成对抗网络端到端的模糊图像盲复原方法 |
CN108711141B (zh) * | 2018-05-17 | 2022-02-15 | 重庆大学 | 利用改进的生成式对抗网络的运动模糊图像盲复原方法 |
CN108664953B (zh) * | 2018-05-23 | 2021-06-08 | 清华大学 | 一种基于卷积自编码器模型的图像特征提取方法 |
CN108961217B (zh) * | 2018-06-08 | 2022-09-16 | 南京大学 | 一种基于正例训练的表面缺陷检测方法 |
CN109003272B (zh) * | 2018-07-26 | 2021-02-09 | 北京小米移动软件有限公司 | 图像处理方法、装置及系统 |
CN109509149A (zh) * | 2018-10-15 | 2019-03-22 | 天津大学 | 一种基于双通道卷积网络特征融合的超分辨率重建方法 |
CN109361934B (zh) * | 2018-11-30 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN109801215B (zh) * | 2018-12-12 | 2020-04-28 | 天津津航技术物理研究所 | 基于对抗生成网络的红外超分辨率成像方法 |
CN109712092B (zh) * | 2018-12-18 | 2021-01-05 | 上海信联信息发展股份有限公司 | 档案扫描图像修复方法、装置及电子设备 |
CN109829891B (zh) * | 2019-01-02 | 2020-11-27 | 浙江大学 | 一种基于密集生成对抗神经网络的磁瓦表面缺陷检测方法 |
CN111508010B (zh) * | 2019-01-31 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 对二维图像进行深度估计的方法、装置及电子设备 |
CN109949905A (zh) * | 2019-02-28 | 2019-06-28 | 福建自贸区试验区厦门片区Manteia数据科技有限公司 | 一种基于靶区的三维剂量分布预测方法 |
CN109862208B (zh) * | 2019-03-19 | 2021-07-02 | 深圳市商汤科技有限公司 | 视频处理方法、装置、计算机存储介质以及终端设备 |
CN109978074A (zh) * | 2019-04-04 | 2019-07-05 | 山东财经大学 | 基于深度多任务学习的图像美感和情感联合分类方法及系统 |
CN110223254A (zh) * | 2019-06-10 | 2019-09-10 | 大连民族大学 | 一种基于对抗生成网络的图像去噪方法 |
CN110675326B (zh) * | 2019-07-24 | 2022-04-22 | 西安理工大学 | 基于U-Net网络的计算鬼成像重建恢复的方法 |
CN110827207B (zh) * | 2019-09-17 | 2022-12-02 | 北京大学 | 一种基于协同分合学习机制的反射消除方法 |
CN110717522B (zh) * | 2019-09-18 | 2024-09-06 | 平安科技(深圳)有限公司 | 图像分类网络的对抗防御方法及相关装置 |
CN113034424A (zh) * | 2019-12-24 | 2021-06-25 | 中强光电股份有限公司 | 模型训练方法与电子装置 |
CN111179196B (zh) * | 2019-12-28 | 2023-04-18 | 杭州电子科技大学 | 一种基于分而治之的多分辨率深度网络图像去高光方法 |
CN111445539A (zh) * | 2020-03-23 | 2020-07-24 | 九牧厨卫股份有限公司 | 一种阳台积水检测方法、处理装置及智能晾衣架系统 |
CN111488865B (zh) * | 2020-06-28 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 图像优化方法、装置、计算机存储介质以及电子设备 |
CN112102182B (zh) * | 2020-08-31 | 2022-09-20 | 华南理工大学 | 一种基于深度学习的单图像去反射方法 |
CN112508815A (zh) * | 2020-12-09 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 模型的训练方法和装置、电子设备、机器可读存储介质 |
CN112581396A (zh) * | 2020-12-18 | 2021-03-30 | 南京邮电大学 | 一种基于生成对抗网络的反射消除方法 |
CN112634161B (zh) * | 2020-12-25 | 2022-11-08 | 南京信息工程大学滨江学院 | 基于两级反射光消除网络和像素损失的反射光去除方法 |
EP4266693A4 (en) | 2021-07-06 | 2024-07-17 | Samsung Electronics Co Ltd | ELECTRONIC IMAGE PROCESSING DEVICE AND OPERATING METHOD THEREFOR |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106127696A (zh) * | 2016-06-13 | 2016-11-16 | 西安电子科技大学 | 一种基于bp神经网络拟合运动场的图像去除反射方法 |
CN106203432A (zh) * | 2016-07-14 | 2016-12-07 | 杭州健培科技有限公司 | 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8647895B1 (en) * | 2012-08-06 | 2014-02-11 | Institute Of Nuclear Energy Research, Atomic Energy Council | Process of manufacturing crystalline silicon solar cell |
-
2017
- 2017-03-22 CN CN201710173436.4A patent/CN107103590B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127696A (zh) * | 2016-06-13 | 2016-11-16 | 西安电子科技大学 | 一种基于bp神经网络拟合运动场的图像去除反射方法 |
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN106203432A (zh) * | 2016-07-14 | 2016-12-07 | 杭州健培科技有限公司 | 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法 |
Non-Patent Citations (1)
Title |
---|
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks;Radford A,et al.;《Computer Science》;20160107;第3-6部分及附图1 * |
Also Published As
Publication number | Publication date |
---|---|
CN107103590A (zh) | 2017-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103590B (zh) | 一种基于深度卷积对抗生成网络的图像反射去除方法 | |
CN113011499B (zh) | 一种基于双注意力机制的高光谱遥感图像分类方法 | |
CN110378334B (zh) | 一种基于二维特征注意力机制的自然场景文本识别方法 | |
CN115797931A (zh) | 一种基于双分支特征融合的遥感图像语义分割方法 | |
CN108388900A (zh) | 基于多特征融合和时空注意力机制相结合的视频描述方法 | |
CN111091130A (zh) | 基于轻量级卷积神经网络的实时图像语义分割方法及系统 | |
CN113627504B (zh) | 基于生成对抗网络的多模态多尺度特征融合目标检测方法 | |
CN110363204A (zh) | 一种基于多任务特征学习的对象表示方法 | |
CN113435269A (zh) | 一种基于YOLOv3改进的水面漂浮物检测与识别方法及系统 | |
CN109859120A (zh) | 基于多尺度残差网络的图像去雾方法 | |
CN112070753A (zh) | 多尺度信息增强双目卷积神经网络显著性图像检测方法 | |
CN114742985A (zh) | 一种高光谱特征提取方法、装置及存储介质 | |
CN109360146A (zh) | 基于深度卷积对抗生成网络dcgan的双光图像融合模型 | |
CN112257509A (zh) | 基于联合信息编码的立体图像单流视觉显著性检测方法 | |
CN113160085B (zh) | 一种基于生成对抗网络的水花遮挡图像数据集采集方法 | |
CN100534132C (zh) | 基于判别光流张量和hmm的视频语义单元检测方法 | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
CN109919921A (zh) | 基于生成对抗网络的环境影响程度建模方法 | |
CN110728186B (zh) | 一种基于多网融合的火灾检测方法 | |
CN117541505A (zh) | 基于跨层注意力特征交互和多尺度通道注意力的去雾方法 | |
CN113313721B (zh) | 基于多尺度结构的实时语义分割方法 | |
CN115937693A (zh) | 一种基于遥感图像的道路识别方法及系统 | |
CN113781410B (zh) | 一种基于MEDU-Net+网络的医学图像分割方法和系统 | |
CN118071649A (zh) | 一种基于深度学习的两阶段红外图像湍流抑制方法及系统 | |
CN117522674A (zh) | 一种联合局部和全局信息的图像重建系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |