CN113409217A - 一种基于多频子带概率推理模型的图像修复方法 - Google Patents

一种基于多频子带概率推理模型的图像修复方法 Download PDF

Info

Publication number
CN113409217A
CN113409217A CN202110707810.0A CN202110707810A CN113409217A CN 113409217 A CN113409217 A CN 113409217A CN 202110707810 A CN202110707810 A CN 202110707810A CN 113409217 A CN113409217 A CN 113409217A
Authority
CN
China
Prior art keywords
image
network
band
frequency sub
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110707810.0A
Other languages
English (en)
Inventor
王瑾
王琛
朱青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110707810.0A priority Critical patent/CN113409217A/zh
Publication of CN113409217A publication Critical patent/CN113409217A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明提出一种基于多频子带概率推理模型的图像修复方法,提出了一种基于多频概率推理模型的双路径并行网络——推理网络和生成网络。我们的方法将真实图像送入推理网络,受损图像送入生成网络,分别在小波域中将图像分解为低频子带和高频子带,然后通过编码器分别获得真实图像高低频子带的潜变量分布和缺失图像的高低频子带潜变量分布,再通过概率推理模型使得缺失图像的高低频子带潜变量分布接近于真实图像的高低频子带潜变量分布,最终使得修复完成的图像尽可能地接近真实图像,该方法的生成的图像结构更清晰,纹理更精细,修复后的图像更真实无明显边界。

Description

一种基于多频子带概率推理模型的图像修复方法
技术领域:
本发明涉及计算机图像处理领域,具体涉及一种基于多频子带概率推理模型的图像修复方法。
背景技术:
图像修复是多媒体应用和计算机视觉中的一项基本任务,其目标是为缺失的区域生成替代的全局语义结构和局部细节纹理,并最终产生视觉逼真的结果。它在图像编辑、复原和合成等多媒体领域得到了广泛的应用。传统的基于图像块的图像修复方法是从已知区域搜索并复制最匹配的图像块到缺失的区域。这种传统的图像修复方法对静态纹理的处理效果较好,但对人脸等复杂或非重复结构的纹理处理效果有限,不适用于高层语义信息的捕获。
近年来,基于学习的方法将图像修复建模为条件生成问题,Pathak等人首先利用对抗损失函数训练深度神经网络来预测缺失区域,这有利于捕获大面积缺失区域的边缘和全局结构。Ishikawa等人通过结合全局和局部的对抗损失函数来改进它,以产生更精细的纹理。通过卷积神经网络,进行深层特征的提取和传递,更好的弥补了传统图像修复算法的不足,这些方法取得了视觉上真实且合理的修复结果。然而,由于这些方法平等地对待和处理输入图像的结构和纹理信息,因此常常会出现边界过光滑或纹理现象。
为了解决这一问题,Liu等人提出了两段式网络,在第一阶段中恢复缺失区域的粗略结构,并在第二阶段利用第一阶段的重构信息生成最终结果。然而,第二阶段网络很大程度上依赖于第一阶段网络重构结构的正确性,两段式训练也带来了额外的计算负担。同时,输入图像中低频特征和高频特征的数据分布表现完全不同。如果不区分地计算不同频率的特征分布,可能会误导结构的重建或纹理的生成。
综上,现有的图像修复算法往往不能同时重建合理的结构和精细的纹理,具有局限性。
发明内容
为了解决现有图像修复方法不能同时重建合理结构和精细纹理的问题,本发明提供一种质量高的图像修复方法,该方法的生成的图像结构更清晰,纹理更精细,修复后的图像更真实无明显边界。
本发明的基于多频子带概率推理模型的图像修复方法,提出了一种基于多频概率推理模型的双路径并行网络——推理网络和生成网络。我们的方法首先在小波域中将输入图像分解为低频子带和高频子带,这有利于在不受干扰的情况下更准确地提取不同频率的特征分布。然后,将从推理网络估计的真实图像的低频特征和高频特征进行编码,得到真实图像的多频特征的潜变量分布,同样我们也可以利用小波变换分别得到低高频子带并进行编码,得到受损图像的多频特征的潜变量分布,利用概率推理模型对受损图像的潜变量进行估计,使缺失图像的潜变量分布更接近于真实图像的潜变量分布,潜变量生成相应的多频信息,填补缺失的区域,生成最终的视觉逼真的结果。
以下分为训练阶段和实测阶段两个阶段来阐述我们的发明:
1.一种基于多频子带概率推理模型的图像修复方法,其特征在于:分为训练阶段和实测阶段两个阶段;
训练阶段采用推理网络和生成网络并行结构,生成网络用于在推理网络的辅助下,进行图像修复任务:
训练过程中推理网络用来估计真实图像的潜变量分布,推理网络的具体操作如下:
步骤一:针对真实图像Igt,采用离散小波变换将真实图像迭代地分解为4个子带图像
Figure BDA0003131905560000031
其中低频子带为:
Figure BDA0003131905560000032
高频子带为:
Figure BDA0003131905560000033
步骤二:将步骤一得到的真实图像的高频子带和低频子带分别输入到不同的编码器中,得到高频子带和低频子带的潜变量
Figure BDA0003131905560000034
Figure BDA0003131905560000035
步骤三:将步骤二中得到的高低频潜变量拼接到一起输入到解码器中,得到重建后的图像;
步骤四:将真实图像和步骤三中得到的重建后的图像输入到判别器网络Dinfer中,通过损失函数迭代地调整生成器Ginfer参数,直至损失函数收敛,生成器Ginfer参数达到最优值停止训练;
推理网络损失函数具体如下:
首先,构建重建损失函数,该损失被定义为预测结果Iinfer和真实图像之间的L1距离,具体如下:
Figure BDA0003131905560000036
其中,
Figure BDA0003131905560000037
Iinfer表示推理网络中生成的图像,Igt表示真实图像,
Figure BDA0003131905560000038
分别是真实图像的高、低频子带,Ginfer表示推理网络中的生成器;
然后,构建推理网络中的对抗损失函数,该损失用于使判别器网络中真实图像的特征和重建后的图像特征更加接近,具体如下:
Figure BDA0003131905560000041
其中,Dinfer表示推理网络中的判别器;
接下来,利用多频子带概率推理模型得到推理网路的KL散度
Figure BDA0003131905560000042
具体如下:利用推理网络中的变分下界得到KL,具体如下:
Figure BDA0003131905560000043
Figure BDA0003131905560000044
式中xL和xH表示生成模型,log p(xL)表示生成模型中低频子带的分布,log p(xH)表示生成模型中高频子带的分布,其中,令控制生成模型生成的潜变量分布是一个标准正态分布:
Figure BDA0003131905560000045
以适应缺失区域像素个数n,zL和zH表示生成模型的潜变量分布,
Figure BDA0003131905560000046
Figure BDA0003131905560000047
是后验重要取样函数,它表示由真实图像的高低频子带
Figure BDA0003131905560000048
经过编码后得到的对应高低频潜变量
Figure BDA0003131905560000049
的分布,
Figure BDA00031319055600000410
表示真实图像的低频子带通过编码器之后得到的潜变量控制生成图像低频子带分布的期望,;
Figure BDA00031319055600000411
表示真实图像的高频子带通过编码器之后得到的潜变量控制生成图像高频子带分布的期望。
基于(4)和(5)式,根据缺失部分图像中像素n的数量来调整先验,定义为高斯函数,得到推理网路的KL散度
Figure BDA00031319055600000412
用于最小化真实图像和生成模型这两个分布之间的差距,具体如下:
Figure BDA00031319055600000413
最后,得到推理网络的完整损失函数,具体如下:
Figure BDA00031319055600000414
其中,
Figure BDA0003131905560000051
表示权重系数;
训练过程中生成网络的具体操作如下所示:
步骤一:针对受损图像Im,采用离散小波变换将受损图像迭代地分解为4个子带图像
Figure BDA0003131905560000052
其中低频子带为:
Figure BDA0003131905560000053
高频子带为:
Figure BDA0003131905560000054
步骤二:将步骤一得到的受损图像的多频子带表示输入到U-net的编码器中,分别得到高频子带和低频子带的潜变量
Figure BDA0003131905560000055
Figure BDA0003131905560000056
步骤三:将步骤二中得到的高、低频子带的潜变量
Figure BDA0003131905560000057
Figure BDA0003131905560000058
输入到U-net的解码器中,得到生成图像的多频子带表示,将多频子带表示经过逆小波变换得到修复完成的图像;
步骤四:将真实图像和步骤三得到的修复完成的图像输入到判别器网络Dgen中,通过损失函数迭代地调整生成器Ggen参数,直至损失函数收敛,生成器Ggen参数达到最优化,停止训练;
训练过程中生成网络的损失函数如下所示:
首先,构建生成网络的重建损失
Figure BDA0003131905560000059
具体使用归一化的L1距离作为重建损失函数
Figure BDA00031319055600000510
来约束生成结果的轮廓结构,重建损失
Figure BDA00031319055600000511
定义如下:
Figure BDA00031319055600000512
其中,
Figure BDA00031319055600000513
Iout表示生成网络的修复结果,IDWT[·]表示逆离散小波变换,
Figure BDA00031319055600000514
表示损失图像的多频表示,Ggen表示生成网络的生成器;
然后,构建抗性损失函数
Figure BDA00031319055600000515
用于使判别器中真实图像的特征和重构图像的特征更接近,对抗性损失
Figure BDA0003131905560000061
定义如下:
Figure BDA0003131905560000062
其中Dgen表示生成网络中的判别器;
然后,利用多频子带概率推理模型构建生成网络中的KL散度
Figure BDA0003131905560000063
具体如下:
利用生成网络中的变分下界,得到生成网络的KL,变分下界如下:
Figure BDA0003131905560000064
Figure BDA0003131905560000065
其中pθ(·|·)是似然函数,qψ(·|·)是后验重要取样函数,pφ(·|·)是条件先验,
Figure BDA0003131905560000066
表示由受损图像的高低频子带
Figure BDA0003131905560000067
经过编码后得到的对应高低频潜变量
Figure BDA0003131905560000068
的分布,
Figure BDA0003131905560000069
表示由真实图像低频子带的潜变量和缺失图像的低频子带控制生成图像低频子带分布的期望,
Figure BDA00031319055600000610
表示由真实图像高频子带的潜变量和缺失图像的高频子带控制生成图像高频子带分布的期望,
Figure BDA00031319055600000611
Figure BDA00031319055600000612
指的是在给定条件
Figure BDA00031319055600000613
下的生成模型对应的高低频子带分布,θ、ψ、φ是对应函数的深度网络参数;
基于(13)和(14),利用KL散度正则化高低频子带潜变量分布对之间的一致性,得到生成网络的KL散度如下:
Figure BDA00031319055600000614
然后,构建纹理损失函数
Figure BDA00031319055600000615
用于保持生成图像和真实图像的内容和风格一致性,纹理损失
Figure BDA00031319055600000616
的定义如下:
Figure BDA0003131905560000071
其中,Φ表示利用ImageNet预先训练的VGG-16网络提取的高层特征空间,Gram表示格拉姆矩阵运算;
最后,构建生成网络的总体损失函数为:
Figure BDA0003131905560000072
其中,
Figure BDA0003131905560000073
表示权重系数;
实测阶段中使用生成网络来得到修复完成的图像,实测阶段的步骤如下所示:
步骤一:针对受损图像Im,采用离散小波变换将受损图像迭代地分解为4个子带图像
Figure BDA0003131905560000074
其中低频子带为:
Figure BDA0003131905560000075
高频子带为:
Figure BDA0003131905560000076
步骤二:将步骤一得到的受损图像的多频子带表示输入到U-net的编码器中,分别得到高频子带和低频子带的潜变量
Figure BDA0003131905560000077
Figure BDA0003131905560000078
步骤三:将步骤二中得到的高、低频子带的潜变量
Figure BDA0003131905560000079
Figure BDA00031319055600000710
输入到U-net的解码器中,得到生成图像的多频子带表示,将多频子带表示经过逆小波变换得到修复完成的图像,此时得到的图像真实感强、纹理细节清晰。
有益效果
与现有的技术相比,本发明通过多频子带概率推理模型,我们分别从预测低频语义结构内容和高频细节纹理的角度研究了图像修复问题。通过估计缺失区域的多频特征分布,得到缺失区域的多频信息。其有益的效果是:我们的模型不仅可以合成清晰的图像结构,而且还可以在缺失区域生成精细的纹理,明显优于最先进的方法。
附图说明:
图1基于多频子带概率推理模型的图像修复技术框架图;
图2在人脸数据集上的修复结果示例图;
图3与不同算法在中心区域修复的视觉结果比较;
图4与不同算法在随机区域修复的视觉结果比较;
具体实施方式
在图1基于多频子带概率推理模型的图像修复技术框架图中,将图像修复工作分为两条并行的网络路径进行——生成网络和推理网络。在生成网络中输入受损图像,将受损图像经过离散小波变换分解为多频子带,再将多频子带经过编码器之后生成受损图像相应的高低频的潜变量。在推理网络中输入真实图像,经过推理网络中的编码器中产生相应的高低频的潜变量,采用真实图像的潜变量来规则受损图像的潜变量,使得受损图像修复后的结果更接近于真实图像。
以下按照训练和预测两阶段进行详细说明。
训练过程中推理网络用来估计真实图像的潜变量分布,推理网络的具体操作如下:
步骤一:针对真实图像Igt,采用离散小波变换将真实图像迭代地分解为4个子带图像
Figure BDA0003131905560000081
其中低频子带为:
Figure BDA0003131905560000082
高频子带为:
Figure BDA0003131905560000083
步骤二:将步骤一得到的真实图像的多频子带输入到编码器中,分别得到高频子带和低频子带的潜变量
Figure BDA0003131905560000084
Figure BDA0003131905560000085
特别地,我们分别使用不同的编码器来推断不同频率特征的分布,这样更好地集中在多频带中提取不同级别的信息。低频管道以低频子带为输入,预测上下文语义信息。结构上采用普通的卷积块和残差块,会对低频信息敏感,比如颜色和低频结构。相反,高频管道根据高频子带绘制高频细节,结构上,使用残差块进行高频域的边缘和纹理特征的捕获和传输。
步骤三:将步骤二中得到的高低频潜变量拼接到一起输入到解码器中,得到重建后的图像。解码器采用残差块和卷积块相结合的结构进行特征恢复。
步骤四:将真实图像和步骤三中得到的重建后的图像输入到判别器网络中,通过损失函数迭代地调整生成器参数,直至损失函数收敛,生成器参数达到最优值停止训练。判别器采用普通的卷积块结构进行图像的判别。
损失函数如下所示:
推理网络生成图像的过程Ginfer的训练过程可以写成:
Figure BDA0003131905560000091
其中,Iinfer表示推理网络中生成的图像,
Figure BDA0003131905560000092
分别是真实图像的高低频子带。首先,重建损失函数被定义为预测结果Iinfer和真实图像之间的L1距离:
Figure BDA0003131905560000093
同时,推理网络的生成结果要求最小化平均特征到真实数据的L2距离,用来使判别器网络中真实图像的特征和重建后的图像特征更加接近,推理网络中的对抗损失函数定义为:
Figure BDA0003131905560000094
其中,Dinfer表示推理网络中的判别器。
多频子带概率推理模型在推理网络中的使用:
在变分自编码器(VAE)中,我们认为图像的生成是由潜变量控制的,因此我们希望能够通过对图像进行训练得到一类图像的潜变量分布。我们假定潜变量是符合正态分布的,因此在推理网络中我们使用概率推理模型希望能尽可能使得图像的潜变量分布接近于标准正态分布。
推理网络中多频子带概率模型的推导如下所示:
假设低频子带和高频子带相互独立,根据变分自编码器(VAE),在推理网络中的变分下界为:
Figure BDA0003131905560000101
Figure BDA0003131905560000102
式中xL和xH表示我们想要得到的生成模型,即潜变量控制能生成的所有图像,我们把它叫做生成模型,log p(xL)表示我们想要得到的生成模型中低频子带的分布,log p(xH)表示我们想要得到的生成模型中的高频子带的分布,我们假定控制生成模型生成的潜变量分布是一个标准正态分布:
Figure BDA0003131905560000103
Figure BDA0003131905560000104
以适应缺失区域像素个数n,zL和zH表示我们希望得到的生成模型的潜变量分布。使用KL散度来最小化真实图像和生成模型这两个分布之间的差距。
基于(4)和(5)式,我们可以根据缺失部分图像中像素n的数量来调整先验,定义为高斯函数,我们得到推理网路的KL散度
Figure BDA0003131905560000105
Figure BDA0003131905560000106
使用以下损失函数对推理网络进行联合训练:
Figure BDA0003131905560000107
其中,λ表示权重系数。
训练过程中生成网络的具体操作如下所示:
步骤一:针对受损图像Im,采用离散小波变换将受损图像迭代地分解为4个子带图像
Figure BDA0003131905560000108
其中低频子带为:
Figure BDA0003131905560000109
高频子带为:
Figure BDA0003131905560000111
步骤二:将步骤一得到的受损图像的多频子带表示输入到U-net的编码器中,分别得到高频子带和低频子带的潜变量
Figure BDA0003131905560000112
Figure BDA0003131905560000113
步骤三:将步骤二中得到的高、低频子带的潜变量
Figure BDA0003131905560000114
Figure BDA0003131905560000115
输入到U-net的解码器中,得到生成图像的多频子带表示,将多频子带表示经过逆小波变换得到修复完成的图像。
步骤四:将真实图像和步骤三得到的修复完成的图像输入到判别器网络中,通过损失函数迭代地调整生成器参数,直至损失函数收敛,生成器参数达到最优化,停止训练。生成网络中的判别器采用最小二乘生成对抗网络(LSGAN)中的判别器结构。
训练过程中生成网络的损失函数如下所示:
在推理网络的约束下,利用生成网络来进行图像修复任务。生成网络的生成器Ggen的训练过程可以写成:
Figure BDA0003131905560000116
其中Iout表示生成网络的修复结果,IDWT[·]表示逆离散小波变换,
Figure BDA0003131905560000117
表示损失图像的多频表示。
首先,本模型使用归一化的L1距离作为重建损失函数
Figure BDA0003131905560000118
来约束生成结果的轮廓结构。重建损失
Figure BDA0003131905560000119
定义如下:
Figure BDA00031319055600001110
为了使鉴别器中真实图像的特征和重构图像的的特征更接近,我们使用了对抗性约束,对抗性损失
Figure BDA00031319055600001111
定义如下:
Figure BDA00031319055600001112
多频子带概率推理模型在生成网络中的使用:
在生成网络中我们使用概率推理模型希望受损图像尽可能修复的与真实图像一致,由于潜变量控制图像的生成,所以我们需要做的是使得受损图像的潜变量分布尽可能接近真实图像的潜变量分布,因此我们利用最小化推理网络中的得到潜变量和生成网络中得到的潜变量之间的KL离散度来使得受损图像的潜变量分布更接近于真实图像的潜变量分布,最终达到修复受损图像的目标。
生成网络中的多频子带概率推理模型的推导如下所示:
在生成网络中将受损图像的高低频子带作为条件,根据条件变分自编码器(CVAE),生成网络中的变分下界为:
Figure BDA0003131905560000121
Figure BDA0003131905560000122
其中pθ(·|·)是似然函数,qψ(·|·)是后验重要取样函数,pφ(·|·)是条件先验,θ、ψ、φ是对应函数的深度网络参数,在使所观察训练实例的总对数似然值最大化的同时,所有训练数据的变分下界之和随网络参数的变化联合最大化,即此时受损图像和真实图像之间的潜变量分布的KL离散达到最小。
首先,同一频率的潜在特征空间是密切相关的,高低频子带的潜变量是相互独立的,我们假设比起受损图像,生成模型的潜变量的分布更接近于真实图像,所以我们可以采取:
Figure BDA0003131905560000123
Figure BDA0003131905560000124
更新(11)式和(12)式:
Figure BDA0003131905560000131
Figure BDA0003131905560000132
基于(13)和(14),利用KL散度正则化高低频子带潜变量分布对之间的一致性,我们得到生成网络的KL散度如下:
Figure BDA0003131905560000133
最后,为了保持生成图像和真实图像的内容和风格一致性,我们利用ImageNet预先训练的VGG-16网络来提取高层特征空间,纹理损失
Figure BDA0003131905560000134
的定义如下:
Figure BDA0003131905560000135
其中,Φ表示提取的特征表示,Gram表示格拉姆矩阵运算。
考虑到重建损失、对抗损失、KL散度和纹理损失,定义生成网络的总体损失函数为:
Figure BDA0003131905560000136
其中,λ表示权重系数。
实测阶段中我们只使用生成网络来得到修复完成的图像,实测阶段的步骤如下所示:
步骤一:针对受损图像Im,采用离散小波变换将受损图像迭代地分解为4个子带图像
Figure BDA0003131905560000137
其中低频子带为:
Figure BDA0003131905560000138
高频子带为:
Figure BDA0003131905560000139
步骤二:将步骤一得到的受损图像的多频子带表示输入到U-net的编码器中,分别得到高频子带和低频子带的潜变量
Figure BDA0003131905560000141
Figure BDA0003131905560000142
步骤三:将步骤二中得到的高、低频子带的潜变量
Figure BDA0003131905560000143
Figure BDA0003131905560000144
输入到U-net的解码器中,得到生成图像的多频子带表示,将多频子带表示经过逆小波变换得到修复完成的图像,此时得到的图像真实感强、纹理细节清晰。
图像质量评价:
图3是本发明与CE、CA、PICNet、Shift-Net在中心区域的修复图像上的视觉结果比较图,从表1和图3中可以得出:Context Encoder(CE)产生了扭曲的结构和模糊的结果,特别是在高度结构化的图像。Contextual Attention(CA)是一种有效的语义修复方法,但修复结果表现为结构混乱、色彩扭曲。PICNet旨在产生多种多样的可信的图像,但有时也会产生重复的和结构扭曲的图像。Shift-Net获得了较高的峰值信噪比(PSNR),修复结果主观上更好,但是其主观图中的轮廓边缘较为模糊,存在某些程度上的纹理细节缺失。可以看到,这些结果受到失真的影响,这意味着这些方法可能会努力平衡纹理和结构的生成。与这些方法相比,主观上,本模型能更好地处理这些问题,生成更直观、真实的生成结果,客观结果上,获得了最优的峰值信噪比(PSNR)和结构相似性(SSIM)。
表1不同算法的客观质量比较(中心缺失区域)
Figure BDA0003131905560000145
图4是本发明与EdgeConnect、StructureFlow、GatedConv在不规则缺失区域的修复图像上的视觉结果比较图。从表2和图4中可以得到:EdgeConnect在处理一些复杂、大而不规则的缺失区域时受到限制,产生许多无意义的纹理和扭曲的结构。StructureFlow对不规则孔洞的填充是有效的,但在某些区域仍然不可避免的有过平滑的结果,需要额外的输入计算。GatedConv对于复杂结构的恢复性能较差,且结果与周围环境不一致。产生这些结果的主要原因是这些方法没有考虑输入图像的低频和高频之间的影响。与这些方法相比,我们基于概率推理模型的方法可以更好地处理这些问题,能同时产生合理的结构和丰富的纹理细节。
表2不同算法的客观质量比较(不规则缺失区域)
Figure BDA0003131905560000151

Claims (1)

1.一种基于多频子带概率推理模型的图像修复方法,其特征在于:分为训练阶段和实测阶段两个阶段;
训练阶段采用推理网络和生成网络并行结构,生成网络用于在推理网络的辅助下,进行图像修复任务:
训练过程中推理网络用来估计真实图像的潜变量分布,推理网络的具体操作如下:
步骤一:针对真实图像Igt,采用离散小波变换将真实图像迭代地分解为4个子带图像
Figure FDA0003131905550000011
其中低频子带为:
Figure FDA0003131905550000012
高频子带为:
Figure FDA0003131905550000013
步骤二:将步骤一得到的真实图像的高频子带和低频子带分别输入到不同的编码器中,得到高频子带和低频子带的潜变量
Figure FDA0003131905550000014
Figure FDA0003131905550000015
步骤三:将步骤二中得到的高低频潜变量拼接到一起输入到解码器中,得到重建后的图像;
步骤四:将真实图像和步骤三中得到的重建后的图像输入到判别器网络Dinfer中,通过损失函数迭代地调整生成器Iinfer参数,直至损失函数收敛,生成器Iinfer参数达到最优值停止训练;
推理网络损失函数具体如下:
首先,构建重建损失函数,该损失被定义为预测结果Iinfer和真实图像之间的L1距离,具体如下:
Figure FDA0003131905550000016
其中,
Figure FDA0003131905550000017
Iinfer表示推理网络中生成的图像,Igt表示真实图像,
Figure FDA0003131905550000021
分别是真实图像的高、低频子带,Ginfer表示推理网络中的生成器;
然后,构建推理网络中的对抗损失函数,该损失用于使判别器网络中真实图像的特征和重建后的图像特征更加接近,具体如下:
Figure FDA0003131905550000022
其中,Dinfer表示推理网络中的判别器;
接下来,利用多频子带概率推理模型得到推理网路的KL散度
Figure FDA0003131905550000023
具体如下:
利用推理网络中的变分下界得到KL,具体如下:
Figure FDA0003131905550000024
Figure FDA0003131905550000025
式中xL和xH表示生成模型,log p(xL)表示生成模型中低频子带的分布,log p(xH)表示生成模型中高频子带的分布,其中,令控制生成模型生成的潜变量分布是一个标准正态分布:
Figure FDA0003131905550000026
以适应缺失区域像素个数n,zL和zH表示生成模型的潜变量分布,
Figure FDA0003131905550000027
Figure FDA0003131905550000028
是后验重要取样函数,它表示由真实图像的高低频子带
Figure FDA0003131905550000029
经过编码后得到的对应高低频潜变量
Figure FDA00031319055500000210
的分布,
Figure FDA00031319055500000211
表示真实图像的低频子带通过编码器之后得到的潜变量控制生成图像低频子带分布的期望,;
Figure FDA00031319055500000212
表示真实图像的高频子带通过编码器之后得到的潜变量控制生成图像高频子带分布的期望。
基于(4)和(5)式,根据缺失部分图像中像素n的数量来调整先验,定义为高斯函数,得到推理网路的KL散度
Figure FDA00031319055500000213
用于最小化真实图像和生成模型这两个分布之间的差距,具体如下:
Figure FDA0003131905550000031
最后,得到推理网络的完整损失函数,具体如下:
Figure FDA0003131905550000032
其中,
Figure FDA0003131905550000033
表示权重系数;
训练过程中生成网络的具体操作如下所示:
步骤一:针对受损图像Im,采用离散小波变换将受损图像迭代地分解为4个子带图像
Figure FDA0003131905550000034
其中低频子带为:
Figure FDA0003131905550000035
高频子带为:
Figure FDA0003131905550000036
步骤二:将步骤一得到的受损图像的多频子带表示输入到U-net的编码器中,分别得到高频子带和低频子带的潜变量
Figure FDA0003131905550000037
Figure FDA0003131905550000038
步骤三:将步骤二中得到的高、低频子带的潜变量
Figure FDA0003131905550000039
Figure FDA00031319055500000310
输入到U-net的解码器中,得到生成图像的多频子带表示,将多频子带表示经过逆小波变换得到修复完成的图像;
步骤四:将真实图像和步骤三得到的修复完成的图像输入到判别器网络Dgen中,通过损失函数迭代地调整生成器Ggen参数,直至损失函数收敛,生成器Ggen参数达到最优化,停止训练;
训练过程中生成网络的损失函数如下所示:
首先,构建生成网络的重建损失
Figure FDA00031319055500000311
具体使用归一化的L1距离作为重建损失函数
Figure FDA00031319055500000312
来约束生成结果的轮廓结构,重建损失
Figure FDA00031319055500000313
定义如下:
Figure FDA00031319055500000314
其中,
Figure FDA00031319055500000315
Iout表示生成网络的修复结果,IDWT[·]表示逆离散小波变换,
Figure FDA0003131905550000041
表示损失图像的多频表示,Ggen表示生成网络的生成器;
然后,构建抗性损失函数
Figure FDA0003131905550000042
用于使判别器中真实图像的特征和重构图像的特征更接近,对抗性损失
Figure FDA0003131905550000043
定义如下:
Figure FDA0003131905550000044
其中Dgen表示生成网络中的判别器;
然后,利用多频子带概率推理模型构建生成网络中的KL散度
Figure FDA0003131905550000045
具体如下:
利用生成网络中的变分下界,得到生成网络的KL,变分下界如下:
Figure FDA0003131905550000046
Figure FDA0003131905550000047
其中pθ(·|·)是似然函数,qψ(·|·)是后验重要取样函数,pφ(·|·)是条件先验,
Figure FDA0003131905550000048
表示由受损图像的高低频子带
Figure FDA0003131905550000049
经过编码后得到的对应高低频潜变量
Figure FDA00031319055500000410
的分布,
Figure FDA00031319055500000411
表示由真实图像低频子带的潜变量和缺失图像的低频子带控制生成图像低频子带分布的期望,
Figure FDA00031319055500000412
表示由真实图像高频子带的潜变量和缺失图像的高频子带控制生成图像高频子带分布的期望,
Figure FDA00031319055500000413
Figure FDA00031319055500000414
指的是在给定条件
Figure FDA00031319055500000415
下的生成模型对应的高低频子带分布,θ、ψ、φ是对应函数的深度网络参数;
基于(13)和(14),利用KL散度正则化高低频子带潜变量分布对之间的一致性,得到生成网络的KL散度如下:
Figure FDA0003131905550000051
然后,构建纹理损失函数
Figure FDA0003131905550000052
用于保持生成图像和真实图像的内容和风格一致性,纹理损失
Figure FDA0003131905550000053
的定义如下:
Figure FDA0003131905550000054
其中,Φ表示利用ImageNet预先训练的VGG-16网络提取的高层特征空间,Gram表示格拉姆矩阵运算;
最后,构建生成网络的总体损失函数为:
Figure FDA0003131905550000055
其中,
Figure FDA0003131905550000056
表示权重系数;
实测阶段中使用生成网络来得到修复完成的图像,实测阶段的步骤如下所示:
步骤一:针对受损图像Im,采用离散小波变换将受损图像迭代地分解为4个子带图像
Figure FDA0003131905550000057
其中低频子带为:
Figure FDA0003131905550000058
高频子带为:
Figure FDA0003131905550000059
步骤二:将步骤一得到的受损图像的多频子带表示输入到U-net的编码器中,分别得到高频子带和低频子带的潜变量
Figure FDA00031319055500000510
Figure FDA00031319055500000511
步骤三:将步骤二中得到的高、低频子带的潜变量
Figure FDA00031319055500000512
Figure FDA00031319055500000513
输入到U-net的解码器中,得到生成图像的多频子带表示,将多频子带表示经过逆小波变换得到修复完成的图像,此时得到的图像真实感强、纹理细节清晰。
CN202110707810.0A 2021-06-24 2021-06-24 一种基于多频子带概率推理模型的图像修复方法 Pending CN113409217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707810.0A CN113409217A (zh) 2021-06-24 2021-06-24 一种基于多频子带概率推理模型的图像修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707810.0A CN113409217A (zh) 2021-06-24 2021-06-24 一种基于多频子带概率推理模型的图像修复方法

Publications (1)

Publication Number Publication Date
CN113409217A true CN113409217A (zh) 2021-09-17

Family

ID=77683149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707810.0A Pending CN113409217A (zh) 2021-06-24 2021-06-24 一种基于多频子带概率推理模型的图像修复方法

Country Status (1)

Country Link
CN (1) CN113409217A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047541A (zh) * 2019-12-30 2020-04-21 北京工业大学 一种基于小波变换注意力模型的图像修复方法
CN112801914A (zh) * 2021-02-09 2021-05-14 北京工业大学 一种基于纹理结构感知的二段式图像修复方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047541A (zh) * 2019-12-30 2020-04-21 北京工业大学 一种基于小波变换注意力模型的图像修复方法
CN112801914A (zh) * 2021-02-09 2021-05-14 北京工业大学 一种基于纹理结构感知的二段式图像修复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIN WANG 等: "Image Inpainting Based on Multi-frequency Probabilistic Inference Model", MM \'20: PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, 12 October 2020 (2020-10-12), pages 1 - 9, XP058730548, DOI: 10.1145/3394171.3413891 *

Similar Documents

Publication Publication Date Title
Gao et al. Image quality assessment based on multiscale geometric analysis
CN111047541B (zh) 一种基于小波变换注意力模型的图像修复方法
Bajaj et al. Autoencoders based deep learner for image denoising
Wang et al. Optimized feature extraction for learning-based image steganalysis
CN113763268B (zh) 人脸图像盲修复方法及系统
CN113409216A (zh) 一种基于频带自适应修复模型的图像修复方法
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN111861945A (zh) 一种文本引导的图像修复方法和系统
Cha et al. Gan2gan: Generative noise learning for blind image denoising with single noisy images
Wang et al. Adaptor: Improving the robustness and imperceptibility of watermarking by the adaptive strength factor
CN116029887A (zh) 一种基于小波神经网络的图像大容量鲁棒水印方法
Qin et al. A new spatial steganographic scheme by modeling image residuals with multivariate Gaussian model
Batard et al. DIP-VBTV: a color image restoration model combining a deep image prior and a vector bundle total variation
Sandić-Stanković et al. Quality assessment of DIBR-synthesized views based on sparsity of difference of closings and difference of Gaussians
Liu et al. Facial image inpainting using multi-level generative network
CN113409217A (zh) 一种基于多频子带概率推理模型的图像修复方法
CN116362991A (zh) 一种基于域对齐gan先验的盲脸恢复方法
Rajpal et al. Fast digital watermarking of uncompressed colored images using bidirectional extreme learning machine
CN114820381A (zh) 一种基于结构信息嵌入和注意力机制的数字图像修复方法
Rekha et al. Image denoising using fast non-local means filter and multi-thresholding with harmony search algorithm for WSN
CN114549302A (zh) 一种图像超分辨率重建方法及系统
Liu et al. Graph representation learning for spatial image steganalysis
Raghuvanshi et al. Analysing image denoising using non local means algorithm
CN114764750A (zh) 基于自适应一致性先验深度网络的图像去噪方法
Wang et al. A review of image denoising methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination