CN113298733B

CN113298733B - 一种基于隐式边缘先验的尺度渐进的图像补全方法

Info

Publication number: CN113298733B
Application number: CN202110642824.9A
Authority: CN
Inventors: 苏雅诗; 马丽红; 韦岗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2023-02-14
Anticipated expiration: 2041-06-09
Also published as: CN113298733A

Abstract

本发明公开了一种基于隐式边缘先验的尺度渐进的图像补全方法，包括以下步骤：S1、获取多尺度的边缘先验信息；S2、将边缘先验信息与破损图像输入到先验输入模块，得到整合后的复合信息；S3、将整合后的复合信息输入到图像补全网络，该网络包括级联的编码器、多尺度特征融合模块和解码器，输出中间输出集；S4、使用包括渐进结构损失函数的复合损失函数集训练图像补全网络；S5、将破损图像与边缘先验信息输入经过训练的图像补全网络，得到中间输出集，以中间输出集中最低尺度输出作为补全图像。本发明引入边缘先验信息，并通过渐进结构损失函数约束补全过程，同时采用多尺度特征融合模块强化约束作用；通过本发明的方法，可以得到更合理的补全图像。

Description

一种基于隐式边缘先验的尺度渐进的图像补全方法

技术领域

本发明涉及基于深度学习的图像补全技术领域，具体涉及一种基于隐式边缘先验的尺度渐进的图像补全方法。

背景技术

图像补全是指如何利用周围的信息恢复出图像被遮盖部分的内容，涉及对存留信息的有效提取及对丢失信息的合理估计。图像补全除了能恢复部分缺失的图像外，还能实现真实图像的快速编辑。用户可以涂抹掉不需要的物体，由算法实现自动地补全。

近年来，深度学习的发展推动了对图像补全领域的研究。与传统方法相比，学习方法注重获取更高层次的语义信息，这些信息能帮助缺失部分恢复出更相关的结构，得到更真实的结果。但是，先验信息的缺乏带来结构和纹理恢复的平衡性的挑战。这意味着网络难以同时恢复出合理的结构和清晰的细节，通常表现为产生的结果图像存在模糊、伪影现象。

为应对结构和纹理难以同时有效恢复的问题，级联子网络结构被广泛应用，如将模型分解为结构补全网络和纹理补全网络。结构补全网络恢复对象是结构图像,即边缘保持的平滑图像，注重恢复出合理真实的结构。细节补全网络在恢复出的结构图像基础上补充纹理等低频细节。

为了更充分地提取图像存留部分的信息，一些近期的工作使用了canny算子提取的边缘图像作为网络的先验信息。边缘信息能指导图像更好地恢复出图像的结构，提高恢复出的结构的合理性。级联子网络结构能有效地将复杂的任务分解成多个较为简单的子任务。但它的显著缺陷是不合理的中间输出会严重影响后续网络的恢复。此外，由于边缘图像信息比较稀疏，仅作为图像补全网络的输入可能会因为网络过深而影响有限。级联子网络结构还会导致参数倍增的问题。

发明内容

本发明的目的是为了解决现有技术中大多数利用边缘先验作为指导信息的图像补全算法需要使用先验补全子网络显式地补全出完整的预估先验，从而导致对后续的图像补全可能因不合理的预估出现负面影响的问题，同时降低通过尺度渐进分散，同时恢复出良好的图像结构与细节的并行任务难度，提出一种基于隐式边缘先验的尺度渐进的图像补全方法，该方法引入的边缘先验信息为补全过程提供结构信息，并通过渐进结构损失函数约束补全过程；同时多尺度特征融合模块强化了边缘先验信息的指导作用，本发明可以补全出结构更真实、细节更合理的图像。

本发明的目的可以通过采取如下技术方案达到：

一种基于隐式边缘先验的尺度渐进的图像补全方法，所述图像补全方法包括以下步骤：

S1、获取多尺度的边缘先验信息，首先，将破损图像输入到第一边缘生成器，第一边缘生成器输出一系列不同尺度的边缘先验信息，然后，将真实图像输入到第二边缘生成器，第二边缘生成器输出一系列不同尺度的完整边缘图像集；其中，所述第一边缘生成器和第二边缘生成器是基于预训练的整体嵌套边缘检测模型，整体嵌套边缘检测模型简称HED(Holistically-Nested Edge Detection)模型，所述完整边缘图像集用于计算渐进结构损失函数；

S2、将边缘先验信息与破损图像输入先验输入模块，得到整合后的复合信息，所述先验输入模块包括输入融合块和压缩激发块，压缩激发块简称SE-Block(Sequeze andExcitation-Block)，首先，通过输入融合块并联地在各个尺度上融合对应尺度的边缘先验信息与破损图像中采集到的特征，然后，通过SE-Block自适应地调整各尺度特征维度权重；

S3、将整合后的复合信息输入到图像补全网络，所述图像补全网络包括级联的编码器、多尺度特征融合模块和解码器，输出中间输出集，首先，通过编码器提取复合信息的语义特征，然后，通过多尺度特征融合模块在语义特征上进一步扩展采样尺度得到融合特征，最后，通过解码器解码融合特征，得到一组中间输出集；

其中，所述多尺度特征融合模块包括级联的门控、空间注意力层、金字塔结构融合块，首先，通过门控筛除语义特征在缺失区域的无意义噪声，然后，通过空间注意力层促进语义特征空间权重自适应地内部融合，最后，通过金字塔结构融合模块实现相近尺度的特征融合，得到融合特征；

S4、使用包括渐进结构损失函数的复合损失函数集训练图像补全网络，使图像补全网络沿着尺度渐进的方向补全，通过所述渐进结构损失函数约束中间输出集与真实图像对应的完整边缘图像集之间的差异性最小得到经过训练的图像补全网络；

S5、将破损图像与边缘先验信息输入经过训练的图像补全网络，得到中间输出集，以中间输出集中最低尺度输出作为补全图像。

进一步地，所述第一边缘生成器通过输入破损图像到用破损图像训练集预训练的HED模型，得到破损图像的一组多尺度的边缘输出，计算公式如下:

其中I_in为破损图像，HED₁(·)表示第一边缘生成器，

分别表示第一边缘生成器对于破损图像的前三个尺度的边缘输出，前三个尺度的边缘输出用作边缘先验信息E_in。

进一步地，所述第二边缘生成器通过输入真实图像到用真实图像训练集预训练的HED模型，得到真实图像的一组多尺度的边缘输出，计算公式如下:

其中I_gt为真实图像，HED₂(·)表示第二边缘生成器，

分别表示第二边缘生成器对于真实图像的前三个尺度的边缘输出，前三个尺度的边缘输出用作真实图像的完整边缘图像集E_gt。

进一步地，所述第二边缘生成器通过输入中间训练集到用真实图像训练集预训练的HED模型，得到中间训练集的一组多尺度的边缘输出，计算公式如下:

其中l＝1,2,3，

为尺度l上图像补全网络的中间输出集，对

HED₂(·)仅输出对应的尺度

分别表示第二边缘生成器对于中间输出集的对应尺度的三个边缘输出，三个边缘输出用作中间输出集的完整边缘图像集E_out。

进一步地，所述先验输入模块首先通过并联的卷积核尺寸为1x1、卷积核尺寸为3x3、两个卷积核尺寸为3x3的卷积提取破损图像不同尺度的特征，通过卷积核尺寸为1x1的卷积提取各个尺度的边缘先验信息的特征，然后，对应尺度的破损图像特征与边缘信息特征在维度上拼接，最后，通过卷积核尺寸为3x3的卷积将拼接后的特征降维，得到复合特征，计算公式表示为：

其中

为尺度l上的边缘先验信息，

为对应的复合特征，⊕表示维度上的拼接，l＝1,2,3时conv_l分别为conv_1×1、conv_3×3、conv_3×3，分别对应卷积核尺寸为1x1、卷积核尺寸为3x3、两个卷积核尺寸为3x3的卷积。

进一步地，所述门控首先通过sigmoid激活函数过滤来自于编码器的语义特征的噪声，然后，通过卷积核尺寸为3x3的卷积平滑语义特征，最后，将语义特征与来自于多尺度特征融合模块的融合特征在空间域上像素相加，得到降噪特征，表示为：

f_dn＝f_fu+conv(σ(f_en)) (5)

其中f_en为语义特征，f_fu为融合特征，f_dn为降噪特征，σ(·)为sigmoid激活函数，+为像素相加。

进一步地，所述金字塔结构融合块，通过4个并行的卷积核尺寸为3x3的扩张卷积重采样降噪特征，得到融合特征；其中，扩张因子分别设为1、2、3、4，表示为：

其中conv_3×3,dr＝1、conv_3×3,dr＝2、conv_3×3,dr＝3、conv_3×3,dr＝4分别为扩张因子为1，2、3、4的卷积核尺寸为3x3的扩张卷积。

进一步地，所述渐进结构损失函数通过L1损失函数计算真实图像和中间输出集对应的完整边缘图像集之间的差异性，计算公式表示为：

其中l＝1,2,3，L_GSL为渐进损失函数，||·||₁为1阶范数的计算。

本发明相对于现有技术具有如下的优点及效果：

本发明不需要额外的边缘补全网络，而是引入多尺度的边缘先验信息作为指导信息，通过渐进结构损失函数指导图像补全网络渐进地补全，并通过多尺度特征融合模块在平滑渐进的梯度的同时强化边缘先验信息，有效分散补全的难度，同时顾及结构与细节的恢复，缓解模糊、伪影现象。

附图说明

图1是本发明公开的一种基于隐式边缘先验的尺度渐进的图像补全方法的流程图；

图2是本发明中先验输入模块的结构示意图；

图3是本发明中多尺度特征融合模块的结构示意图；

图4是本发明中多尺度特征融合模块中的金字塔结构融合块结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例提供了一种基于隐式边缘先验的尺度渐进的图像补全方法，将预先获取的边缘先验信息和破损图像输入先验输入模块进行特征融合，得到融合特征，将融合特征输入包括级联的编码器、多尺度特征融合模块、解码器的图像补全网络，得到中间输出集，中间输出集的最低尺度输出为补全图像，具体包括以下步骤：

S1、获取多尺度的边缘先验信息，首先，将破损图像输入到第一边缘生成器，第一边缘生成器输出一系列不同尺度的边缘先验信息，然后，将真实图像输入到第二边缘生成器，第二边缘生成器输出一系列不同尺度的完整边缘图像集；其中，第一边缘生成器和第二边缘生成器基于预训练的HED模型，完整边缘图像集用于计算渐进结构损失函数，具体为：

第一边缘生成器通过输入破损图像到用破损图像训练集预训练的HED模型，得到破损图像的一组多尺度的边缘输出，计算公式如下:

其中I_in为破损图像，HED₁(·)表示第一边缘生成器，

分别表示第一边缘生成器对于破损图像的前三个尺度的边缘输出，前三个尺度的边缘输出用作边缘先验信息E_in；

第二边缘生成器通过输入真实图像到用真实图像训练集预训练的HED模型，得到真实图像的一组多尺度的边缘输出，计算公式如下:

其中I_gt为真实图像，HED₂(·)表示第二边缘生成器，

分别表示第二边缘生成器对于真实图像的前三个尺度的边缘输出，前三个尺度的边缘输出用作真实图像的完整边缘图像集E_gt；

第二边缘生成器通过输入中间训练集到用真实图像训练集预训练的HED模型，得到中间训练集的一组多尺度的边缘输出，计算公式如下:

其中l＝1,2,3，

为尺度l上图像补全网络的中间输出集，对

HED₂(·)仅输出对应的尺度

分别表示第二边缘生成器对于中间输出集的对应尺度的三个边缘输出，三个边缘输出用作中间输出集的完整边缘图像集E_out；

与目前已有的使用先验信息的图像补全方法常选择的Canny边缘和Sobel梯度等先验信息相比，该边缘先验信息不仅在低尺度分量中保留了Sobel梯度中重要的纹理信息，同时，基于HED模型生成的边缘对伪影、棋盘效应等常见的图像质量问题有接近于Canny边缘的强鲁棒性，此外边缘先验信息以边缘的粗细和灰度值的高低区分高尺度结构和低尺度细节的重要程度，更符合人类视觉系统的特点。

为验证本发明中各个设计对最后的补全结果的质量有正面影响，设置一个基准模型，该模型基本参数设置与该实施例完全一致的基于编码器-解码器搭建的图像补全网络，使用Canny边缘作为先验信息，先验信息与破损图像的融合方式为通道维度直接合并，不使用跳跃连接，采用已有图像补全方法中最常用的损失函数集进行训练，将一组测试用的破损图像输入训练后的基准模型，对得到的补全结果测定，峰值信号比简称PSNR(PeakSignal-to-Noise Ratio)为28.29，结构相似性简称SSIM(Structural Similarity IndexMeasure)为0.930，Fréchet感知距离简称FID(Fréchet Inception Distance)为1.41，图像感知相似度简称LPIPS(Learned Perceptual Image Patch Similarity)为0.093，PSNR和SSIM反映了补全图像的像素准确度，越大的数值说明了越好的重构准确性。FID和LPIPS反映了补全图像的视觉质量和语义相似度，越小的数值说明了越好的重构合理性；

将基准模型中的Canny边缘改为本发明提出的边缘先验信息，模型的其余设置不变，得到先验测试模型，使用同样的一组破损图像测试，测定的结果为PSNR提升至29.11，SSIM提升至0.931，FID降低至1.29，LPIPS降低至0.092。

S2、将边缘先验信息与破损图像输入先验输入模块，得到整合后的复合信息，其中，先验输入模块如图2所示，包括输入融合块和SE-Block，首先，通过输入融合块并联地在各个尺度上融合对应尺度的边缘先验信息与破损图像中采集到的特征，然后，通过SE-Block自适应地调整各尺度特征维度权重，具体为：

首先，先验输入模块通过并联的卷积核尺寸为1x1、卷积核尺寸为3x3、两个卷积核尺寸为3x3的卷积提取破损图像不同尺度的特征，通过卷积核尺寸为1x1的卷积提取各个尺度的边缘先验信息的特征，然后，对应尺度的破损图像特征与边缘信息特征在维度上拼接，最后，通过卷积核尺寸为3x3的卷积将拼接后的特征降维，得到复合特征，计算公式表示为：

其中

为尺度l上的边缘先验信息，

为对应的复合特征，⊕表示维度上的拼接，l＝1,2,3时conv_l分别为conv_1×1、conv_3×3、conv_3×3(conv_3×3)，分别对应卷积核尺寸为1x1、卷积核尺寸为3x3、两个卷积核尺寸为3x3的卷积。

与目前已有的使用先验信息的图像补全方法常使用的先验信息与破损图像直接在通道维度合并作为图像补全网络输入的方式相比，该先验输入模块能充分地利用边缘先验信息多尺度的特点，将融合的过程按尺度拆分为通道数总和不变的多个分支进行卷积，并通过SE-Block通道维度的权重根据破损图像自适应地区分各个分支结果的重要性，引导后续图像补全网络关注相对重要的尺度信息；

将先验测试模型中的边缘先验信息与破损图像的融合方式改为采用先验输入模块融合，模型的其余设置不变，得到输入测试模型，使用同样的一组破损图像测试，测定的结果为PSNR提升至30.09，SSIM提升至0.937，FID降低至1.19，LPIPS降低至0.091。

S3、将整合后的复合信息输入到图像补全网络，图像补全网络包括级联的编码器、多尺度特征融合模块和解码器，输出中间输出集，首先，通过编码器提取复合信息的语义特征，然后，通过多尺度特征融合模块在语义特征上进一步扩展采样尺度得到融合特征，最后，通过解码器解码融合特征，得到一组中间输出集；

其中，多尺度特征融合模块如图3所示，包括级联的门控、空间注意力层、金字塔结构融合块，首先，通过门控筛除语义特征在缺失区域的无意义噪声，然后，通过空间注意力层促进语义特征空间权重自适应地内部融合，最后，通过金字塔结构融合模块实现相近尺度的特征融合，得到融合特征，具体为：

首先，门控通过sigmoid激活函数过滤来自于编码器的语义特征的噪声，然后，通过卷积核尺寸为3x3的卷积平滑语义特征，最后，将语义特征与来自于多尺度特征融合模块的融合特征在空间域上像素相加，得到降噪特征，表示为：

f_dn＝f_fu+conv(σ(f_en)) (5)

其中f_en为语义特征，f_fu为融合特征，f_dn为降噪特征，σ(·)为sigmoid激活函数，+为像素相加；

金字塔结构融合块如图4所示，通过4个并行的卷积核尺寸为3x3的扩张卷积重采样降噪特征，得到融合特征；其中，扩张因子分别设为1，2，3，4，表示为：

其中conv_3×3,dr＝1、conv_3×3,dr＝2、conv_3×3,dr＝3、conv_3×3,dr＝4分别为扩张因子为1，2，3，4的卷积核尺寸为3x3的扩张卷积。

目前已有的图像补全方法由于解码器提取出的破损图像特征在缺失区域存在严重无意义噪声，一般不使用跳跃连接，而跳跃连接能够帮助深度学习的训练过程更好地收敛，本发明使用该多尺度特征融合模块作为图像补全网络的跳跃连接，该多尺度特征融合模块由门控筛除无意义噪声，增设空间注意力层自适应提高各尺度上与缺失区域特征相似的保留区域特征的权重，增设金字塔结构融合块拓宽各层覆盖的尺度范围，可应用在使用编码器-解码器或者U型网络为网络结构的其他图像补全方法当中；

在输入测试模型的基础上增设多尺度特征融合模块作为跳跃连接，模型的其余设置不变，得到连接测试模型，使用同样的一组破损图像测试，测定的结果为PSNR提升至30.27，SSIM提升至0.939，FID降低至0.96，LPIPS降低至0.090。

S4、使用包括渐进结构损失函数的复合损失函数集训练图像补全网络，使图像补全网络沿着尺度渐进的方向补全，通过渐进结构损失函数约束中间输出集与真实图像对应的完整边缘图像集之间的差异性最小得到经过训练的图像补全网络，具体为：

渐进结构损失函数通过L1损失函数计算真实图像和中间输出集对应的完整边缘图像集之间的差异性，计算公式表示为：

目前已有的图像补全方法的损失函数集仅关注最后的补全图像，整个图像补全网络的训练过程的方向没有显式的方法调控，而渐进损失函数通过对各个尺度的中间输出集进行约束，使图像补全网络沿尺度渐进的方向补全，有效地分散补全难度，在破损图像缺失面积较大时仍能恢复出较为合理的物体轮廓；

在连接测试模型的损失函数集中增设渐进结构损失函数，模型的其余设置不变，得到损失测试模型，使用同样的一组破损图像测试，测定的结果为PSNR提升至31.05，SSIM提升至0.949，FID降低至0.85，LPIPS降低至0.087。

设置一组破损区域占比分布在0％-60％的测试用破损图像，对实施例的补全结果与已有的经典图像补全方法deepfiil v1、deep fill v2,及同样基于先验信息的图像补全方法EdgeConnect、StructureFlow以及StructureInpainting所得的补全结果进行测定，结果表明该实施例能够补全出重构准确性与重构合理性均更高的补全结果，在缺失区域较大时优势更为显著。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于隐式边缘先验的尺度渐进的图像补全方法，其特征在于，所述图像补全方法包括以下步骤：

S1、获取多尺度的边缘先验信息，首先，将破损图像输入到第一边缘生成器，第一边缘生成器输出一系列不同尺度的边缘先验信息，然后，将真实图像输入到第二边缘生成器，第二边缘生成器输出一系列不同尺度的完整边缘图像集；其中，所述第一边缘生成器和第二边缘生成器是基于预训练的整体嵌套边缘检测模型，整体嵌套边缘检测模型简称HED模型，所述完整边缘图像集用于计算渐进结构损失函数；

S2、将边缘先验信息与破损图像输入先验输入模块，得到整合后的复合信息，所述先验输入模块包括输入融合块和压缩激发块，压缩激发块简称SE-Block，首先，通过输入融合块并联地在各个尺度上融合对应尺度的边缘先验信息与破损图像中采集到的特征，然后，通过SE-Block自适应地调整各尺度特征维度权重；

S5、将破损图像与边缘先验信息输入经过训练的图像补全网络，得到中间输出集，以中间输出集中最低尺度输出作为补全图像；

其中，所述第一边缘生成器通过输入破损图像到用破损图像训练集预训练的HED模型，得到破损图像的一组多尺度的边缘输出，计算公式如下:

其中I_in为破损图像，HED₁(·)表示第一边缘生成器，

其中，所述第二边缘生成器通过输入真实图像到用真实图像训练集预训练的HED模型，得到真实图像的一组多尺度的边缘输出，计算公式如下:

其中I_gt为真实图像，HED₂(·)表示第二边缘生成器，

其中，所述第二边缘生成器通过输入中间训练集到用真实图像训练集预训练的HED模型，得到中间训练集的一组多尺度的边缘输出，计算公式如下:

其中l＝1,2,3，

为尺度l上图像补全网络的中间输出集，对

HED₂(·)仅输出对应的尺度

其中，所述渐进结构损失函数通过L1损失函数计算真实图像和中间输出集对应的完整边缘图像集之间的差异性，计算公式表示为：

2.根据权利要求1所述的一种基于隐式边缘先验的尺度渐进的图像补全方法，其特征在于，所述先验输入模块首先通过并联的卷积核尺寸为1x1、卷积核尺寸为3x3、两个卷积核尺寸为3x3的卷积提取破损图像不同尺度的特征，通过卷积核尺寸为1x1的卷积提取各个尺度的边缘先验信息的特征，然后，对应尺度的破损图像特征与边缘信息特征在维度上拼接，最后，通过卷积核尺寸为3x3的卷积将拼接后的特征降维，得到复合特征，计算公式表示为：

其中

为尺度l上的边缘先验信息，

为对应的复合特征，

表示维度上的拼接，l＝1,2,3时conv_l分别为conv_1×1、conv_3×3、conv_3×3，分别对应卷积核尺寸为1x1、卷积核尺寸为3x3、两个卷积核尺寸为3x3的卷积。

3.根据权利要求1所述的一种基于隐式边缘先验的尺度渐进的图像补全方法，其特征在于，所述门控首先通过sigmoid激活函数过滤来自于编码器的语义特征的噪声，然后，通过卷积核尺寸为3x3的卷积平滑语义特征，最后，将语义特征与来自于多尺度特征融合模块的融合特征在空间域上像素相加，得到降噪特征，表示为：

f_dn＝f_fu+conv(σ(f_en)) (5)

4.根据权利要求1所述的一种基于隐式边缘先验的尺度渐进的图像补全方法，其特征在于，所述金字塔结构融合块，通过4个并行的卷积核尺寸为3x3的扩张卷积重采样降噪特征，得到融合特征；其中，扩张因子分别设为1、2、3、4，表示为：

其中，f_dn为降噪特征，conv_3×3,dr＝1、conv_3×3,dr＝2、conv_3×3,dr＝3、conv_3×3,dr＝4分别为扩张因子为1，2、3、4的卷积核尺寸为3x3的扩张卷积。