CN113240593A - 一种基于位置感知的单图像反射层移除方法 - Google Patents

一种基于位置感知的单图像反射层移除方法 Download PDF

Info

Publication number
CN113240593A
CN113240593A CN202110429744.5A CN202110429744A CN113240593A CN 113240593 A CN113240593 A CN 113240593A CN 202110429744 A CN202110429744 A CN 202110429744A CN 113240593 A CN113240593 A CN 113240593A
Authority
CN
China
Prior art keywords
reflection
image
layer
loss function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110429744.5A
Other languages
English (en)
Inventor
许威威
董政
鲍虎军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110429744.5A priority Critical patent/CN113240593A/zh
Publication of CN113240593A publication Critical patent/CN113240593A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于位置感知的单图像反射层移除方法。该方法引入反射检测模块,将图像的多尺度拉普拉斯特征作为输入并预测一张反射置信图,该置信图可以用来指示一个像素是否由反射或者背景主导,并且在预测反射层与传输层时控制特征信息的流动。本发明将网络模型设计成迭代的结构以用于逐渐改善反射移除的质量。新颖之处在于,本发明使用多尺度可学习的拉普拉斯核来抑制弱反射,增强强反射边缘信息,这将有助于反射检测模块对强反射区域的检测,并逐步改善反射移除的质量。

Description

一种基于位置感知的单图像反射层移除方法
技术领域
图像反射移除是计算机视觉图像恢复及图像分解领域中的一项重要内容。本发明具体涉及了一种基于位置感知的单图像反射层移除方法。
背景技术
日常生活中,当我们通过一个透明介质例如玻璃拍摄景物时,得到的照片通常会被介质上的一层反射影像所干扰,这将会严重影响到照片质量。因此,我们需要对这些图像进行去除反射或分离反射层影像的后处理,这将有助于改善图像质量,也对一些计算机视觉任务例如图像识别有益。
在图像反射层移除领域中,反射层叠加的图像I可以被建模为传输层T与反射层R的加权线性组合,即:
Figure BDA0003030985910000011
其中W作为加权图表示了传输层的光照衰减程度。单图像反射层移除的目的在于从一张叠加图像I中恢复出传输层T,由于未知变量个数大于方程个数,这是一个不定解问题。因此,一些先验被用来约束该问题的解空间,例如:反射梯度图像的稀疏性、厚玻璃导致的鬼影效果、反射层相对于传输层的平滑性。为了消除从图像梯度域分解传输层T与反射层R的歧义,一些基于目标函数优化求解的方法从检测反射区域的角度出发,对不同位置的图像像素添加约束以提高反射移除的质量。从这些方法的结果可以看出,定位反射像素对于去除强反射有利。然而这些方法依赖于对超参数的选取,例如梯度阈值;除此,目前基于深度学习方法的单图像反射移除并没有很好发掘反射的位置信息,或缺乏有效线索以让网络模型意识到反射如何在特征中被编码,从而促进反射移除。当强反射,例如高光出现在叠加图像上时,这将会导致信息的歧义,因此,很多主流方法不能分解得到较高质量的传输层。
发明内容
针对上述不足,本发明提出了一种基于位置感知的单图像反射层移除方法,并能广泛应用于多种反射类型。
本发明的网络模型引入了一个新颖的反射检测模块RDM,通过学习拉普拉斯特征来检测图像反射主导的区域,该模块输出一张以概率表示的反射置信图RCMap用于控制后续信息的流动,显著提升了反射移除的效果。首先,引入拉普拉斯的主要动机在于反射层与传输层在梯度域上的特征不同:具体表现为反射层梯度值较低,相对平滑,本发明使用拉普拉斯卷积层来增强强反射边缘,抑制弱反射边缘,从而提高RCMap的质量;其次,RDM无需真实的反射主导区域掩模参与监督训练,这可以避免定义与标记反射主导区域的困难。逆反射置信图,即1RCMap,可以表示为建模方程
Figure BDA0003030985910000021
中的W,用于指示背景主导的区域,这也激励我们使用上述建模方程设计RDM训练时的监督函数。
本发明提出的网络模型迭代地从输入叠加图像中恢复传输层图像。在每次迭代中,将恢复传输层的过程建模为通过检测的反射层移除方式。模型首先通过预测RCMap来检测反射主导区域,然后通过抑制非反射区域(背景区域)特征来预测整个反射层R,最后利用逆反射置信图1RCMap(指示背景主导区域)以及预测的反射层R来恢复传输层T。这种网络模型的设计受到交替优化策略的启发,将不定解的单图像反射移除任务分解为多个易于求解的子问题,并同时考虑到了反射层与传输层之间的相互关系。本发明的网络模型可以有效地从带有高光反射的图像中恢复出背景。
为了实现上述内容,本发明的技术方案如下:一种基于位置感知的单图像反射层移除方法,该方法包括以下步骤:
S1:构建用于移除反射层的神经网络模型,所述网络模型为循环结构,每次迭代被划分为两阶段,用于序列地恢复反射层R与传输层T;
阶段1:通过输入的原始图像I与预测的传输层图像
Figure BDA0003030985910000022
来预测反射层
Figure BDA0003030985910000023
与反射置信图
Figure BDA0003030985910000024
具体由以下三个部分实现:
反射检测模块RDM:将I与
Figure BDA0003030985910000025
作为输入,通过多尺度拉普拉斯子模块MLSM输出的拉普拉斯特征来预测反射置信图
Figure BDA0003030985910000026
传输层抑制模块TSM:通过多组压缩激发残差模块SE-ResBlock处理MLSM输出的拉普拉斯特征,将
Figure BDA0003030985910000027
逐元素乘以处理后的拉普拉斯特征来抑制非反射区域;
将被抑制后的拉普拉斯特征与图像
Figure BDA0003030985910000028
的特征拼接后作为长短期记忆模块LSTM的输入,并经过卷积处理来预测反射层
Figure BDA0003030985910000029
阶段2:将图像
Figure BDA00030309859100000210
以及阶段1预测的
Figure BDA00030309859100000211
和逆反射置信图
Figure BDA00030309859100000212
拼接后作为输入,通过自动编解码器输出预测的传输层图像
Figure BDA00030309859100000213
S2:利用训练数据集对神经网络模型进行训练,模型训练完成后,进行反射层移除应用。
进一步地,所述RDM的具体设计如下:
(1)将I与
Figure BDA00030309859100000214
拼接作为输入Xin,通过双线性插值对输入Xin进行多尺度降采样处理;
(2)使用可学习的拉普拉斯卷积核获取输入信号的二阶梯度信息;
(3)对多尺度二阶梯度信息应用上采样操作来恢复原始尺度,拼接后作为输出的拉普拉斯特征Xout
(4)根据Xout预测反射置信图
Figure BDA00030309859100000215
进一步地,所述RDM中,将Xin降采样到原始图像尺度的1/2、1/4、1/8,使用一个参数初始化为KL=[0,-1,0;-1,4,-1;0,-1,0]的3×3拉普拉斯卷积核来获取输入信号的二阶梯度信息,同时,该卷积核可以被模型优化更新以更好地适应于训练反射图像数据集;训练时,利用梯度裁剪来确保更新的参数接近于原始参数KL;经过拉普拉斯卷积操作后,对多尺度的二阶梯度信息应用上采样操作恢复原始尺度。
进一步地,所述根据Xout预测反射置信图
Figure BDA0003030985910000031
具体为:
使用多组SE-ResBlock处理拉普拉斯特征Xout,将激活函数设置为参数化修正线性单元PReLU来保留拉普拉斯特征的负值,通过卷积操作以及Sigmoid函数预测得到反射置信图
Figure BDA0003030985910000032
进一步地,所述LSTM输出的隐藏参数h,c将作为下一次循环的输入,并在第一次循环时初始化为0;使用LSTM结构有助于网络模型在循环过程中保持对原始图像特征与拉普拉斯特征的记忆。
进一步地,阶段1参与迭代的初始传输层图像T0被设置为原始图像I;阶段1预测的
Figure BDA0003030985910000033
Figure BDA0003030985910000034
被用来作为阶段2输入的额外信息来提高传输层的恢复质量。
进一步地,阶段2中将逆反射置信图
Figure BDA0003030985910000035
作为额外输入,有助于指导网络模型对传输层主导区域进行自适应编码,从而提高传输层的恢复质量。
进一步地,阶段2中采用语义自编解码器结构,且在该结构中的卷积、修正线性单元ReLU之后添加卷积块注意力模块CBAM以进行通道与空间的注意力信息计算,从而提高模型对传输层主导区域语义特征的提取能力。
进一步地,将真实的传输层与反射层图像定义为T,R;将第i次迭代预测的传输层与反射层图像定义为
Figure BDA0003030985910000036
将逆伽马矫正操作定义为ginv;将模型循环次数定义为N;将用于训练的反射图像数据集定义为
Figure BDA0003030985910000037
用于模型监督训练的损失函数如下:
(1)合成损失函数,用于指导RDM预测反射置信图
Figure BDA0003030985910000038
以及对每步预测的
Figure BDA0003030985910000039
进行监督;首先,通过T,R,
Figure BDA00030309859100000310
构造一张合成图像:
Figure BDA00030309859100000311
其中°为逐像素点乘操作;定义关于
Figure BDA00030309859100000312
的损失函数为如下等式:
Figure BDA00030309859100000313
其中
Figure BDA00030309859100000314
为均方误差函数,θ是一个用于指示监督强度的衰减率;
其次,采用α混合模型:
Figure BDA00030309859100000315
来监督
Figure BDA00030309859100000316
其中α为一个标量,
Figure BDA00030309859100000317
Figure BDA00030309859100000318
分别构造了两种形式:
Figure BDA00030309859100000319
Figure BDA00030309859100000320
Figure BDA00030309859100000321
用均方误差函数来计算
Figure BDA00030309859100000322
与ginv(I)的误差,并将这项损失函数记为
Figure BDA00030309859100000323
将用于监督合成训练图像的合成损失函数定义为:
Figure BDA0003030985910000041
(2)感知损失函数,使用在ImageNet上预训练的VGG-19网络来提取图像特征从而计算该损失函数值;感知损失函数值将多尺度的图像作为输入,定义等式如下:
Figure BDA0003030985910000042
其中
Figure BDA0003030985910000043
为VGG特征之间的均方误差函数。
Figure BDA0003030985910000044
表示为第N次迭代中阶段2自动编解码器模型最后第j层预测的传输层结果,Tj表示与
Figure BDA0003030985910000045
具有相同尺寸的真实传输层图像,γj为损失权重。
(3)像素与相似度损失函数,逐像素损失被用于惩罚真实传输层T与预测传输层
Figure BDA0003030985910000046
之间的误差,采用l1损失函数来计算像素间的绝对误差,并将其表示为
Figure BDA0003030985910000047
定义该像素损失如下:
Figure BDA0003030985910000048
在每次迭代步i中,采用
Figure BDA0003030985910000049
计算相似度损失,其中SSIM为结构相似性评判指标函数;完整的相似损失函数被定义如下:
Figure BDA00030309859100000410
将两项损失函数的混合损失函数定义为:
Figure BDA00030309859100000411
其中γ为加权系数。
(4)对抗损失函数,用于对估计的传输层图像进行监督;使用一个多层的鉴别器网络D来评估恢复图像的质量,定义对抗损失函数为:
Figure BDA00030309859100000412
综上,将训练过程中总的损失函数定义为上述损失函数的加权线性组合:
Figure BDA00030309859100000413
其中λ1、λ2、λ3、λ4为各损失函数权重,使用ADAM优化算法优化总损失函数。
进一步地,所述训练数据集由合成反射图像数据集与真实反射图像数据集构成。
申请人将上述设计的网络模型在反射图像数据集上训练,并在公开数据集上进行了测试。相比于其他最新的基于深度学习的反射层移除方法,本发明模型取得了较好的效果。综上所述,本发明的主要贡献及有益效果如下:
(1)提出了一种新颖的单图像反射层移除方法,可以从叠加图像中迭代地恢复传输层。在每次迭代过程中,传输层的恢复以一种通过检测的反射层移除序列方式进行。
(2)提出的神经网络模型引入了一个新颖的反射检测模块RDM来检测反射主导的区域。RDM通过学习一组拉普拉斯核参数来发掘反射区域的边缘信息。
(3)附加实验表明,本发明相比于其他的主流算法,具有更好的模型性能。基于拉普拉斯特征的反射主导区域检测更有利于移除强反射。
附图说明
图1是本发明实施例中基于位置感知的单图像反射层移除模型的结构图。其中,阶段1:预测反射置信图(RCMap)与反射层,其中“x4”表示压缩激发残差模块(SE-ResBlock,SE:Squeeze-and-Excitation)重复了4次。阶段2:预测传输层图像,卷积块注意力模块(CBAM:Convolutional Block Attention Modules)。本结构中,i-1步预测的传输层图像将会被再次送入到模型中作为第i步的输入,其中T0被初始化为I。
图2是模型迭代优化输出的结果。输入图像I在一层玻璃前被拍摄。
图3是逆一阶边缘图像、逆拉普拉斯图像以及对应原始图像的可视化结果。对于逆边缘图像,首先计算值范围在[0,1]的一阶边缘图像E,然后获得逆一阶边缘图像,即:1–E。相似的,首先对拉普拉斯核KL卷积后的图像取绝对值,然后除以整张图像的最大值以获得一张归一化的拉普拉斯图像L,然后获得逆拉普拉斯图像,即:1-L。原始图像中梯度值为0的低频信号在逆图像中被映射为1。
图4是迭代优化的反射置信图以及原始图像I,用于监督的真实传输层图像T。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便于该领域的技术人员更好的理解本发明。
如图1所示,本发明涉及的网络模型被设计为循环的结构。在迭代步骤i中,模型将原始图像I与步骤i-1中预测的传输层图像
Figure BDA0003030985910000051
作为输入,并且预测传输层
Figure BDA0003030985910000052
其中参与迭代的初始传输层图像T0被设置为原始图像I。图2展示了提出的网络模型逐步优化的反射层移除结果。
每次迭代被划分为两阶段,用于序列地恢复反射层R与传输层T。阶段1通过输入的原始图像I与预测的传输层图像
Figure BDA0003030985910000053
来预测反射层
Figure BDA0003030985910000054
与反射置信图
Figure BDA0003030985910000055
将第一阶段写成方程GR,则该关系可以表示为:
Figure BDA0003030985910000056
阶段1主要包括三部分:
(1)反射检测模块RDM:将I与
Figure BDA0003030985910000057
作为输入,通过多尺度拉普拉斯子模块MLSM输出的拉普拉斯特征来预测反射置信图
Figure BDA0003030985910000061
(2)传输层特征抑制模块TSM:通过多组压缩激发残差模块SE-ResBlock进一步处理MLSM输出的拉普拉斯特征,将
Figure BDA0003030985910000062
逐元素乘以处理后的特征来抑制非反射区域(传输层区域);
(3)拼接抑制后的拉普拉斯特征与图像
Figure BDA0003030985910000063
特征,输入到一个长短期记忆模块LSTM中并经过卷积处理来预测反射层
Figure BDA0003030985910000064
在我们的模型结构中,
Figure BDA0003030985910000065
Figure BDA0003030985910000066
主要被用来作为阶段2输入的额外信息来提高传输层的恢复质量。
进一步的,阶段1中反射检测模块RDM的具体设计如下:
参考图3,弱反射部分在逆拉普拉斯图像1-L中相比于逆一阶边缘图像1-E更难以看清。拉普拉斯算子,作为一个二阶梯度的差分算子,相比于一阶梯度的差分算子可以更为有效地抑制低频反射信息;相比而言,具有硬边缘的强反射则不能够被拉普拉斯算子所抑制。因此,图像I与T之间差异较大的强反射在拉普拉斯特征中将被相对放大,拉普拉斯算子将有助于检测反射的主导区域。这里我们将图像I,T拼接起来作为输入
Figure BDA0003030985910000067
来获取多尺度的拉普拉斯特征,具体实施流程如下:
(1)通过双线性插值的方法将输入Xin降采样到原始图像尺度的1/2、1/4、1/8,分别记作:
Figure BDA0003030985910000068
(2)使用一个参数初始化为KL=[0,-1,0;-1,4,-1;0,-1,0]的3×3拉普拉斯卷积核来获取输入信号的二阶梯度信息。同时,该卷积核可以被模型优化更新以更好地适应于训练反射图像数据集。我们把该卷积操作记为:
Figure BDA0003030985910000069
训练时,利用梯度裁剪(裁剪值取0.25)来确保更新的参数接近于原始参数KL
(3)经过图1中的拉普拉斯卷积操作后,对多尺度的拉普拉斯特征应用上采样操作:
Figure BDA00030309859100000610
来恢复原始尺度,其中j为采样率。拼接多尺度的二阶梯度信息,构成拉普拉斯特征Xout
由此,给定降采样的图像
Figure BDA00030309859100000611
与Xin,输出的特征Xout可以写成:
Figure BDA00030309859100000612
其中Concat表示拼接操作。以上(1)-(3)操作被设计为MLSM。
最后,给定输入Xout,反射检测模块RDM从该拉普拉斯特征中预测反射置信图RCMap。首先我们使用了3个SE-ResBlock来进一步处理拉普拉斯特征,其中每个SE-ResBlock由SE-ResNet的3层单元构成,然后利用参数化修正线性单元(PReLU:ParametricRectified Linear Unit)作为激活函数来保留拉普拉斯特征的负值。我们将以上操作记作:
Figure BDA00030309859100000613
由此,预测的反射置信图
Figure BDA0003030985910000071
可以写作:
Figure BDA0003030985910000072
其中Sigmoid表示Sigmoid函数,Conv表示卷积操作。
图4展示了3组训练过程中迭代优化的反射置信图。可以看到,检测到的反射主导区域随迭代次数的增加逐渐清晰并精确。
在阶段1的传输层特征抑制模块TSM中,我们再次利用3个SE-ResBlock来进一步处理拉普拉斯特征,并且将反射置信图
Figure BDA0003030985910000073
乘在处理后的特征上来抑制传输层特征。不同于阶段2中预测传输层
Figure BDA0003030985910000074
的方式,将反射置信图
Figure BDA0003030985910000075
作为输入来预测
Figure BDA0003030985910000076
根据实验结果我们发现抑制传输层区域的拉普拉斯特征将有助于预测反射层,这一操作也简化了网络模型的设计,降低了网络模型的复杂度。
最后,将抑制后的拉普拉斯特征与图像
Figure BDA0003030985910000077
特征拼接后作为LSTM的输入并经过卷积操作来预测反射层
Figure BDA0003030985910000078
其中LSTM输出的隐藏参数h,c将作为下一次循环的输入,并在参与第一次循环时初始化为0。使用LSTM的结构将有助于该模型在循环过程中保持对原始图像特征与拉普拉斯特征的记忆,一定程度上防止模型训练时梯度爆炸,梯度消失的问题。
在阶段2,我们通过输入图像
Figure BDA0003030985910000079
以及阶段1预测的
Figure BDA00030309859100000710
来估计
Figure BDA00030309859100000711
将第二阶段写成方程GT,则该关系可以表示为:
Figure BDA00030309859100000712
由于逆反射置信图
Figure BDA00030309859100000713
在传输层主导区域的值较高,将该图作为阶段2的一部分输入,有助于指导网络模型对传输层主导区域进行自适应编码,从而提高传输层恢复的质量。由图1所示,对于该阶段的模型结构设计,我们参考了论文《Attentive generativeadversarial network for raindrop removal from a single image》中的语义自编解码器结构。除此,我们在该结构中的卷积、修正线性单元(ReLU:Rectified Linear Unit)之后添加了卷积块注意力模块(CBAM:Convolutional Block Attention Modules)以进行通道与空间的注意力信息计算,从而提高模型对传输层主导区域语义特征的提取能力。
本发明定义了如下的损失函数以用于模型的监督训练:
为便于描述,我们将真实的传输层与反射层图像定义为T,R;将第i次迭代预测的传输层与反射层图像定义为
Figure BDA00030309859100000714
将逆伽马矫正操作定义为ginv;将模型循环次数定义为N;将用于训练的反射图像数据集定义为
Figure BDA00030309859100000715
(1)合成损失函数,用于指导RDM预测反射置信图
Figure BDA00030309859100000716
以及对每次迭代预测的
Figure BDA00030309859100000717
进行监督。首先,由于逆反射置信图
Figure BDA00030309859100000718
可以作为公式:
Figure BDA00030309859100000719
中的W以指示传输层主导的区域,我们通过T,R,
Figure BDA00030309859100000720
构造一张合成图像
Figure BDA00030309859100000721
Figure BDA0003030985910000081
其中°为逐像素点乘操作。由此,我们定义关于
Figure BDA0003030985910000082
的损失函数为如下等式:
Figure BDA0003030985910000083
其中,
Figure BDA0003030985910000084
为均方误差函数,θ是一个用于指示监督强度的衰减率,这里设置为0.85。
其次,与论文《Single image reflection removal through cascadedrefinement》中监督函数类似的,我们采用了α混合模型,即:
Figure BDA0003030985910000085
来监督
Figure BDA0003030985910000086
其中,α为一个标量,
Figure BDA0003030985910000087
我们分别构造了两种形式:
Figure BDA0003030985910000088
Figure BDA0003030985910000089
同样用均方误差函数来计算
Figure BDA00030309859100000810
与ginv(I)的误差,并将这项损失函数记为
Figure BDA00030309859100000811
我们将用于监督合成训练图像的合成损失函数定义为:
Figure BDA00030309859100000812
(2)感知损失函数,我们使用在ImageNet上预训练的VGG-19网络来提取图像特征从而计算这项损失函数值。感知损失函数值将多尺度的图像作为输入,定义等式如下:
Figure BDA00030309859100000813
其中
Figure BDA00030309859100000814
为VGG特征之间的均方误差。
Figure BDA00030309859100000815
表示为第N次迭代中阶段2自动编解码器模型最后第j层预测的传输层结果,Tj表示与
Figure BDA00030309859100000816
具有相同尺寸的真实传输层图像。这里,损失权重分别设置为γ1=1,γ3=0.8,γ5=0.6。对于误差
Figure BDA00030309859100000817
我们使用层‘conv2_2’,‘conv3_1’,‘conv4_2’与‘conv5_2’的特征来计算。图2展示了
Figure BDA00030309859100000818
预测的过程。
(3)像素与相似度损失函数,逐像素损失被用于惩罚真实传输层T与预测传输层
Figure BDA00030309859100000819
之间的逐像素误差。这里我们采用l1损失函数来计算像素之间的绝对误差,并将其表示为
Figure BDA00030309859100000820
定义该像素损失如下,其中衰减率θ被设置为0.85。
Figure BDA00030309859100000821
在每次迭代步i中,我们采用
Figure BDA00030309859100000822
计算相似度损失,其中SSIM为结构相似性评判指标函数。由此,完整的相似损失函数被定义如下,这里θ同样被设置为0.85。
Figure BDA00030309859100000823
我们将两项损失函数的混合损失函数定义为:
Figure BDA0003030985910000091
参考论文《Loss functions for neural networks for image processing》,加权系数γ被设置为0.84。
(4)对抗损失函数,为了提高生成图像的质量,我们设计该函数以进一步对估计的传输层图像进行监督。这里我们使用一个多层的鉴别器网络D来评估恢复图像的质量,并且定义对抗损失函数为:
Figure BDA0003030985910000092
综上,将训练过程中的损失函数定义为上述损失函数的加权线性组合:
Figure BDA0003030985910000093
在实际训练过程中,我们将权重设置为:λ1=0.4,λ2=0.2,λ3=0.4,λ4=0.01,并使用ADAM优化算法来优化上述损失函数。我们使用PyTorch实现了上述模型,并在NvidiaGeforce RTX 2080Ti GPU上进行训练。其中学习率设置为2*10-4,批量大小设置为2,共训练60回合,ADAM中的参数β12分别设置为0.5,0.99。
本发明涉及的训练数据集由合成反射图像数据集与真实反射图像数据集构成。
其中,我们使用了论文《A generic deep architecture for single imagereflection removal and image smoothing》所使用的图像数据集来合成训练图像,该数据集包含了约13700对分辨率为256×256的传输层、反射层图像。我们使用α混合模型:
Figure BDA0003030985910000094
并在区间[0.8,1.0]中随机采样α来获取
Figure BDA0003030985910000095
Figure BDA0003030985910000096
应用伽马矫正以获取合成图像元组{I,T,R}用于训练。
真实图像数据集由290对{I,T}构成,包含了200对由论文《Single imagereflection removal through cascaded refinement》提供的“Nature”数据集,90对由论文《Single image reflection separation with perceptual losses》提供的训练数据集“Zhang et al.”。在每个训练回合中,我们将4000组图像送入模型,包含2800组随机采样的合成图像以及1200组从真实数据集中裁剪得到的图像。
为了验证本发明方法的有效性,我们在SIR2,Zhang et al,Li et al.三个数据集上进行测试。SIR2是由论文《Benchmarking single-image reflection removalalgorithms》于2017年公开的反射图像数据集,包含了Postcard,Object,Wild三类场景数据,每组图像具有完整的{I,T,R};Zhang et al.与Li et al.分别是论文《Single imagereflection separation with perceptual losses》与《Single image reflectionremoval through cascaded refinement》所用的测试反射图像数据集,包含了{I,T}。
验证实验在上述测试集上与当前主流基于深度学习的7个同类方法:IBCLN:《Single image reflection removal through cascaded refinement》,Kim et al.《Single image reflection removal with physically-based training images》,CoRRN:《Corrn:Cooperative reflection removal network》,ERRNet:《Single imagereflection removal exploiting misaligned training data and networkenhancements》,RMNet:《Single image reflection removal beyond linearity》,BDN:《Adeep learning approach for single image reflection removal》,Zhang et al.做了比较,并在两个图像相似度评判指标:PSNR(峰值信噪比),SSIM(结构相似性)上进行评测,对比结果如表1所示:
表1
Figure BDA0003030985910000101
其中PSNR、SSIM具有更高的值则表示了更好的结果,每行最好的结果用加粗数字表示。从上述结果可以看出,相比与其他方法,本发明提出的方法(Ours)在Postcard,Wild,Zhang et al.三个数据集上取得了最佳的结果,并且我们的方法在完整数据集(Average)上取得了最高的数值指标。该对比实验充分展示了本发明方法的优越性。
另外,我们还进行一些拆解实验来分析引入模块RDM,MLSM,TSM的有效性。我们在网络模型中分别去掉或者修改了上述模块并重新训练整个网络模型,实验结果如表2所示:
表2
Figure BDA0003030985910000102
其中,w/o RDM&TSM表示移除反射检测模块RDM与传输层特征抑制模块TSM;w/oTSM表示移除传输层特征抑制模块TSM,即:将反射检测模块中最后一个SE-Resblock输出的拉普拉斯特征直接与图像Xin特征拼接并送入LSTM预测反射层
Figure BDA0003030985910000103
Figure BDA0003030985910000104
表示移除RDM的MLSM,并且从图像Xin特征中预测反射置信图RCMap;LKI→RKI,表示将MLSM中卷积层拉普拉斯核初始化替换为随机核初始化(从均值为0,方差为0.02的高斯分布采样)。上述拆解实验对照说明,本发明所引入的模块均在一定程度上提高了模型的整体效果。
本发明所涉及的模型复杂度:参数个数:10.926M;模型大小:43.7MB;浮点运算数个数:一次迭代为111.63G(IBCLN为130.86G);运算时间:在RTX 2080Ti GPU上处理大小为400×500图像平均耗时0.068秒。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中基于位置感知的单图像反射层移除方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中基于位置感知的单图像反射层移除方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种基于位置感知的单图像反射层移除方法,其特征在于,包括以下步骤:
S1:构建用于移除反射层的神经网络模型,所述网络模型为循环结构,每次迭代被划分为两阶段,用于序列地恢复反射层R与传输层T;
阶段1:通过输入的原始图像I与预测的传输层图像
Figure FDA0003030985900000011
来预测反射层
Figure FDA0003030985900000012
与反射置信图
Figure FDA0003030985900000013
具体由以下三个部分实现:
反射检测模块RDM:将I与
Figure FDA0003030985900000014
作为输入,通过多尺度拉普拉斯子模块MLSM输出的拉普拉斯特征来预测反射置信图
Figure FDA0003030985900000015
传输层抑制模块TSM:通过多组压缩激发残差模块SE-ResBlock处理MLSM输出的拉普拉斯特征,将
Figure FDA0003030985900000016
逐元素乘以处理后的拉普拉斯特征来抑制非反射区域;
将被抑制后的拉普拉斯特征与图像
Figure FDA0003030985900000017
的特征拼接后作为长短期记忆模块LSTM的输入,并经过卷积处理来预测反射层
Figure FDA0003030985900000018
阶段2:将图像
Figure FDA0003030985900000019
以及阶段1预测的
Figure FDA00030309859000000110
和逆反射置信图
Figure FDA00030309859000000111
拼接后作为输入,通过自动编解码器输出预测的传输层图像
Figure FDA00030309859000000112
S2:利用训练数据集对神经网络模型进行训练,模型训练完成后,进行反射层移除应用。
2.根据权利要求1所述的一种基于位置感知的单图像反射层移除方法,其特征在于,所述RDM的具体设计如下:
(1)将I与
Figure FDA00030309859000000113
拼接作为输入Xin,通过双线性插值对输入Xin进行多尺度降采样处理;
(2)使用可学习的拉普拉斯卷积核获取输入信号的二阶梯度信息;
(3)对多尺度二阶梯度信息应用上采样操作来恢复原始尺度,拼接后作为输出的拉普拉斯特征Xout
(4)根据Xout预测反射置信图
Figure FDA00030309859000000114
3.根据权利要求2所述的一种基于位置感知的单图像反射层移除方法,其特征在于,所述RDM中,将Xin降采样到原始图像尺度的1/2、1/4、1/8,使用一个参数初始化为KL=[0,-1,0;-1,4,-1;0,-1,0]的3×3拉普拉斯卷积核来获取输入信号的二阶梯度信息,同时,该卷积核可以被模型优化更新以更好地适应于训练反射图像数据集;训练时,利用梯度裁剪来确保更新的参数接近于原始参数KL;经过拉普拉斯卷积操作后,对多尺度的二阶梯度信息应用上采样操作恢复原始尺度。
4.根据权利要求2所述的一种基于位置感知的单图像反射层移除方法,其特征在于,所述根据Xout预测反射置信图
Figure FDA00030309859000000115
具体为:
使用多组SE-ResBlock处理拉普拉斯特征Xout,将激活函数设置为参数化修正线性单元PReLU来保留拉普拉斯特征的负值,通过卷积操作以及Sigmoid函数预测得到反射置信图
Figure FDA0003030985900000021
5.根据权利要求1所述的一种基于位置感知的单图像反射层移除方法,其特征在于,所述LSTM输出的隐藏参数h,c将作为下一次循环的输入,并在第一次循环时初始化为0;使用LSTM结构有助于网络模型在循环过程中保持对原始图像特征与拉普拉斯特征的记忆。
6.根据权利要求1所述的一种基于位置感知的单图像反射层移除方法,其特征在于,阶段1参与迭代的初始传输层图像T0被设置为原始图像I;阶段1预测的
Figure FDA0003030985900000022
Figure FDA0003030985900000023
被用来作为阶段2输入的额外信息来提高传输层的恢复质量。
7.根据权利要求1所述的一种基于位置感知的单图像反射层移除方法,其特征在于,阶段2中将逆反射置信图
Figure FDA0003030985900000024
作为额外输入,有助于指导网络模型对传输层主导区域进行自适应编码,从而提高传输层的恢复质量。
8.根据权利要求1所述的一种基于位置感知的单图像反射层移除方法,其特征在于,阶段2中采用语义自编解码器结构,且在该结构中的卷积、修正线性单元ReLU之后添加卷积块注意力模块CBAM以进行通道与空间的注意力信息计算,从而提高模型对传输层主导区域语义特征的提取能力。
9.根据权利要求1所述的一种基于位置感知的单图像反射层移除方法,其特征在于,将真实的传输层与反射层图像定义为T,R;将第i次迭代预测的传输层与反射层图像定义为
Figure FDA0003030985900000025
将逆伽马矫正操作定义为ginv;将模型循环次数定义为N;将用于训练的反射图像数据集定义为
Figure FDA0003030985900000026
用于模型监督训练的损失函数如下:
(1)合成损失函数,用于指导RDM预测反射置信图
Figure FDA0003030985900000027
以及对每步预测的
Figure FDA0003030985900000028
进行监督;首先,通过T,R,
Figure FDA0003030985900000029
构造一张合成图像:
Figure FDA00030309859000000210
其中
Figure FDA00030309859000000224
为逐像素点乘操作;定义关于
Figure FDA00030309859000000211
的损失函数为如下等式:
Figure FDA00030309859000000212
其中
Figure FDA00030309859000000213
为均方误差函数,θ是一个用于指示监督强度的衰减率;
其次,采用α混合模型:
Figure FDA00030309859000000214
来监督
Figure FDA00030309859000000215
其中α为一个标量,
Figure FDA00030309859000000216
Figure FDA00030309859000000217
分别构造了两种形式:
Figure FDA00030309859000000218
Figure FDA00030309859000000219
Figure FDA00030309859000000220
用均方误差函数来计算
Figure FDA00030309859000000221
与ginv(I)的误差,并将这项损失函数记为
Figure FDA00030309859000000222
将用于监督合成训练图像的合成损失函数定义为:
Figure FDA00030309859000000223
(2)感知损失函数,使用在ImageNet上预训练的VGG-19网络来提取图像特征从而计算该损失函数值;感知损失函数值将多尺度的图像作为输入,定义等式如下:
Figure FDA0003030985900000031
其中
Figure FDA0003030985900000032
为VGG特征之间的均方误差函数。
Figure FDA0003030985900000033
表示为第N次迭代中阶段2自动编解码器模型最后第j层预测的传输层结果,Tj表示与
Figure FDA0003030985900000034
具有相同尺寸的真实传输层图像,γj为损失权重。
(3)像素与相似度损失函数,逐像素损失被用于惩罚真实传输层T与预测传输层
Figure FDA0003030985900000035
之间的误差,采用l1损失函数来计算像素间的绝对误差,并将其表示为
Figure FDA0003030985900000036
定义该像素损失如下:
Figure FDA0003030985900000037
在每次迭代步i中,采用
Figure FDA0003030985900000038
计算相似度损失,其中SSIM为结构相似性评判指标函数;完整的相似损失函数被定义如下:
Figure FDA0003030985900000039
将两项损失函数的混合损失函数定义为:
Figure FDA00030309859000000310
其中γ为加权系数。
(4)对抗损失函数,用于对估计的传输层图像进行监督;使用一个多层的鉴别器网络D来评估恢复图像的质量,定义对抗损失函数为:
Figure FDA00030309859000000311
综上,将训练过程中总的损失函数定义为上述损失函数的加权线性组合:
Figure FDA00030309859000000312
其中λ1、λ2、λ3、λ4为各损失函数权重,使用ADAM优化算法优化总损失函数。
10.根据权利要求1所述的一种基于位置感知的单图像反射层移除方法,其特征在于,所述训练数据集由合成反射图像数据集与真实反射图像数据集构成。
CN202110429744.5A 2021-04-21 2021-04-21 一种基于位置感知的单图像反射层移除方法 Pending CN113240593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110429744.5A CN113240593A (zh) 2021-04-21 2021-04-21 一种基于位置感知的单图像反射层移除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110429744.5A CN113240593A (zh) 2021-04-21 2021-04-21 一种基于位置感知的单图像反射层移除方法

Publications (1)

Publication Number Publication Date
CN113240593A true CN113240593A (zh) 2021-08-10

Family

ID=77128748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110429744.5A Pending CN113240593A (zh) 2021-04-21 2021-04-21 一种基于位置感知的单图像反射层移除方法

Country Status (1)

Country Link
CN (1) CN113240593A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197727A (zh) * 2023-11-07 2023-12-08 浙江大学 一种基于全局时空特征学习的行为检测方法与系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102182A (zh) * 2020-08-31 2020-12-18 华南理工大学 一种基于深度学习的单图像去反射方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102182A (zh) * 2020-08-31 2020-12-18 华南理工大学 一种基于深度学习的单图像去反射方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENG DONG ET AL.: "Location-aware Single Image Reflection Removal", 《ARXIV:2012.07131V1 [CS.CV]》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197727A (zh) * 2023-11-07 2023-12-08 浙江大学 一种基于全局时空特征学习的行为检测方法与系统
CN117197727B (zh) * 2023-11-07 2024-02-02 浙江大学 一种基于全局时空特征学习的行为检测方法与系统

Similar Documents

Publication Publication Date Title
EP3712822A1 (en) Adversarial training of neural networks using information about activation path differentials
CN114821246B (zh) 基于多层次残差网络感知和注意力机制的小目标检测方法
CN112132959B (zh) 数字岩心图像处理方法、装置、计算机设备及存储介质
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
CN111241958A (zh) 一种基于残差-胶囊网络的视频图像鉴别方法
US11967088B2 (en) Method and apparatus for tracking target
US11830187B2 (en) Automatic condition diagnosis using a segmentation-guided framework
CN111259919B (zh) 一种视频分类方法、装置及设备、存储介质
WO2022222080A1 (zh) 一种基于位置感知的单图像反射层移除方法
CN112116064A (zh) 光谱超分辨自适应加权注意力机制深层网络数据处理方法
WO2008001942A1 (en) Method and apparatus for model based anisotropic diffusion
CN112861915A (zh) 一种基于高级语义特征无锚框非合作目标检测方法
US11875898B2 (en) Automatic condition diagnosis using an attention-guided framework
CN113240593A (zh) 一种基于位置感知的单图像反射层移除方法
CN112950505B (zh) 一种基于生成对抗网络的图像处理方法、系统和介质
CN117314750A (zh) 一种基于残差生成网络的图像超分辨率重建方法
Kas et al. DLL-GAN: Degradation-level-based learnable adversarial loss for image enhancement
CN115293223A (zh) 深度学习中相位解缠的细节损失优化方法及系统、存储介质
Pahwa et al. LVRNet: Lightweight image restoration for aerial images under low visibility
CN113095328A (zh) 一种基尼指数引导的基于自训练的语义分割方法
He et al. A comparative study of unsupervised deep learning methods for mri reconstruction
CN114565941B (zh) 纹理生成方法、装置、设备及计算机可读存储介质
CN118298194B (zh) 一种面向相机光通信的条纹图像处理方法、装置及设备
CN114842012B (zh) 基于位置意识u型网络的医学图像小目标检测方法及装置
KR102682208B1 (ko) 플래시 이미지를 이용한 논-플래시 이미지의 품질 향상 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210810

RJ01 Rejection of invention patent application after publication