CN112686817A

CN112686817A - 一种基于不确定性估计的图像补全方法

Info

Publication number: CN112686817A
Application number: CN202011567309.0A
Authority: CN
Inventors: 马鑫; 侯峦轩; 赫然; 孙哲南
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-20
Anticipated expiration: 2040-12-25
Also published as: CN112686817B

Abstract

本发明公开一种基于不确定性估计的图像补全方法，包括步骤：将图像数据预处理，使用二值掩码合成损坏图像；使用损坏图像和对应的二值掩码作为网络模型的输入，训练学习损坏图像到目标图像之间的复杂非线性变换映射，得到进行图像补全的生成对抗网络模型；生成对抗网络模型的输出同时包含生成结果和用于表示补全图像补全结果的不确定性图；使用训练好的生成对抗网络模型，对测试数据进行图像补全。本发明结合不确定性估计，使用输入图像进行训练学习，可以使得补全结果含有丰富的细节信息并且能够保持结构上的连续性。

Description

一种基于不确定性估计的图像补全方法

技术领域

本发明涉及图像补全技术领域，涉及基于不确定性估计的图像补全方法。

背景技术

图像补全任务(image inpainting)，是指生成给定损坏图像中缺失区域的替代内容，且使得修复的图像在视觉上逼真和在语义上合理。图像补全任务可在其他应用中使用，如图像编辑，当图像中存在分散人注意力的场景元素时，如人或者物体(通常是不可避免的)，允许用户移除图像中不需要的元素，同时在空白区域填充视觉和语义上合理的内容。

生成对抗网络启发自博弈论中二人零和博弈的思想，具有生成式网络和判别式网络两个网络，利用它们间相互竞争从而不断提升网络性能，最终达到平衡。基于生成对抗网络思想，衍生出许多变种网络，并且这些网络在图像合成、图像超分、图像风格转换和图像修复等方面都取得了显著的进步。图像补全，包括图像修复、图像去水印、图像去雨和图像去雾都得到了研究者们的关注。

人类的内容注意力机制和掩码先验(Attention Mechanism)是从直觉中得到，它是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。深度学习中的内容注意力机制和掩码先验借鉴了人类的注意力思维方式，被广泛的应用在自然语言处理(Nature Language Processing，NLP)、图像分类及语音识别等各种不同类型的深度学习任务中，并取得了显著的成果。

随着科技不断发展，人们在不同领域的需求也在相应提高，包括电影广告动画制作和网络游戏等，逼真的图像修复技术对用户的良好体验具有重要意义。

在此背景下，开发基于不确定性估计的图像补全方法，使得修复后的图像在视觉上逼真和在语义上合理，具有重要的意义。

发明内容

本发明的目的是为了提高图像补全任务中图像的生成质量，包括丰富的纹理细节和结构上的连续性，而提供一种不确定性估计的图像补全方法。

为实现本发明的目的所采用的技术方案是：

一种不确定性估计的图像补全方法，包括步骤：

S1.将图像数据预处理，使用二值掩码合成损坏图像；

S2.使用损坏图像和对应的二值掩码作为网络模型的输入，训练学习损坏图像到目标图像之间的复杂非线性变换映射，得到进行图像补全的生成对抗网络模型：训练包括通过生成器对损坏图像处理得到补全的生成图像，与目标真实图像在判别器中进行对抗损失的计算；迭代多次稳定后完成模型训练；生成对抗网络模型的输出同时包含生成图像和不确定性图，不确定性图用于表示补全图像补全结果的不确定性；

S3.使用训练好的生成对抗网络模型，对测试数据进行图像补全处理。

其中，预处理之后的人脸图像和自然图像大小一致。

其中，所述步骤S2包括：

S21.初始化图像补全任务中的网络权重参数，其中，生成器的损失函数是L_total，判别器的损失函数是L_D；

S22.将损坏图像和二值掩码图输入到生成器网络G中进行图像补全任务，生成的补全图像和目标图像一起输入到判别器网络D中，依次迭代训练使得生成器的损失函数L_total和判别器的损失函数L_D均降低至趋于稳定；

S23.同时训练表情生成和去除任务，直至所有的损失函数不再降低，从而得到最终的生成对抗网络模型。

其中，所述生成对抗网络模型中所有编码器的卷积层为局部卷积，卷积层的输出值取决于未损坏的区域，数学描述如下：

其中，⊙表示像素级乘法，1表示所有元素均为1且形状和M相同的矩阵。W表示卷积层的参数，F表示前层卷积层的输出特征图，b表示卷积层的偏差，M表示对应的二值掩码图，

可以视为是缩放因子，调整已知区域的权重。

在执行了局部卷积之后也需要更新二值掩码图M，数学描述如下：

即若卷积层能够根据有效输入得到输出结果，那么将二值掩码中的该处位置标记为1。

其中，所述生成对抗网络模型中包含内容注意力机制，缺失区域的生成是基于内容注意力机制的输出的，包括如下步骤：

首先计算缺失部分和已知部分的特征相似度先提取已知区域的块，然后重新调整大小之后作为卷积核的参数；已知区域块{f_x，y}和未知区域块{b_x′，y′}之间的余弦相似度可通过如下式子计算：

然后在x′y′维度上用缩放的softmax对相似度进行权衡，得到每个像素点的注意力值：

其中，λ是一个常数，最后把选取出来的未知区域块{b_x′，y′}作为反卷积的卷积核参数重建出缺失区域；

为了获得注意力机制的一致性，按以下方式进行注意力传播：首先进行一个从左到右的注意力传播，然后再做一个核大小为k的自顶向下传播；

其中，对所述不确定性图，采用如下损失函数以减少不确定性：

其中，L_unc表示不确定性估计，Ω表示像素空间，μv表示图像的某点，L_rec表示图像之间的L₁范数，U表示不确定性图。

其中，图像补全中的总损失函数为：

L_total＝λ_uncL_unc+λ_perL_per+λ_styleL_style+λ_tvL_tv+λ_advL_adv

其中，L_unc表示不确定性估计，L_per表示感知损失函数，L_style表示风格损失函数，L_tv表示全变分损失函数，L_adv表示对抗损失函数，λ_rec、λ_per、λ_style、λ_tv和λ_adv表示权重因子。

其中，重建损失函数表示为：

其中，||·||₁表示L₁范数，

cat表示连结操作。

其中，感知损失函数表示为：

其中φ是预训练的VGG-16网络，φⁱ输出第i个池化层的特征图，使用VGG-16中的pool-1，pool-2和pool-3层，N为选取的层数。

其中，风格损失函数表示为：

其中C_i表示预训练模型VGG-16的第i层输出的特征图的通道数。

其中，全变分损失函数表示为：

其中Ω表示图像中损坏区域，全变分损失函数是一个平滑惩罚顶，定义在缺失区域一个像素的膨胀域上，i，j表示图像中的某点。

其中，对抗损失函数表示为：

其中，D表示判别器，y′是某个样本的随机缩放版本，该样本是从y′和y中采样得到的，λ被设置为10，E(*)表示取均值，y～P_Y表示样本y从分布P_Y中采样得到。

本发明提出的基于不确定性估计的图像补全方法，通过局部卷积层，使得生成对抗网络可以利用二值掩码的先验信息，提升生成图像的质量。通过内容注意力机制可以学习根据已知区域重建出未知区域，提高生成高分辨率的图像。通过不确定性估计使得网络同时输出补全结果和不确定性图，最后根据不确定性图减少补全结果的不确定性。

本发明在图像层面和特征层面引入了重建损失函数、风格损失函数、全变分损失函数和对抗损失函数作为约束，提高网络的鲁棒性和准确性。

附图说明

图1是本发明中基于不确定性估计的图像补全方法的流程图，partial conv表示局部卷积层，Concatenate表示连结操作；q和d表示编码器和解码器，z表示解码器的输入，为输入图像的特征。

图2是本方明中的内容注意力流程图，图示中Background和Foreground分别表示缺失的特征图和缺失部分，Input feature表示输入的特征图，Extractpatches表示从缺失特征图中提取块(patch)，Reshape表示重新调整大小，Convfor Matching表示计算余弦相似度，Softmax for Comparison表示根据注意力值选取最相似的块。

图3是本发明在公开数据集上图像补全的效果图。从左往右依次是损坏图像x、二值掩码图M、补全图像

(生成图像)和真实图像y(目标图像记)。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明通过基于不确定性估计的生成对抗网络学习一组高度非线性的变换，用来进行图像补全任务，使得补全的图像含有丰富的纹理细节和连续的结构。

如图1所示，本发明基于不确定性估计的图像补全方法的流程如下：

步骤S1，首先使用二值掩码算法离线生成二值掩码图。

对输入的图像(包括自然和人脸图像)进行预处理操作：对于人脸图像，利用双眼位置校正并裁剪图像，对于自然图像，首先将图像放大然后随机裁剪图像。

具体的，对于人脸图像，根据双眼的位置将图像规范化并裁剪到统一大小256*256；对于自然图像，首先将图像大小放大到350*350，然后对放大的图像进行随机裁剪到统一大小256*256。随机选取一张离线生成的二值掩码图，与为损坏图像相乘得到损坏图像。将损坏图像和对应的二值掩码图进行结合作为输入数据；

步骤S2，利用训练输入数据，训练基于不确定性估计的生成对抗网络模型，以用来完成图像补全任务。具体的，是通过生成对抗网络模型的生成器中的编码器对输入的损坏图像以及二值掩码图M通过局部卷积层进行编码、由解码器根据内容注意力机制选取所获得的隐码解码到损坏图像x中，得到补全图像

的。

为了扩大输入数据样本量，提高网络的泛化能力，本发明采取了数据增广操作，包括随机翻转等。

本发明中，对抗生成网络中利用编码器对输入数据提取特征，使用解码器把获得的隐码解码到图像中，利用内容注意力机制输出最终的补全图像。

所述编码器和解码器均有8个卷积层组成。其中，编码器中的卷积层滤波器大小分别为7，5，3，3，3，3，3，3；解码器中的卷积层滤波器大小均为3。

在本发明实例中，使用传统方法对特征图进行上采样。卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置。

在判别器中，采用卷积神经网络结构将真实图像对和生成的补全图像对作为输入，输出采用分块对抗损失函数来判断真假。

其中，所述步骤S2包括：

可以看做是缩放因子，调整已知区域的权重。

为了获得注意力机制的一致性，按以下方式进行注意力传播：

其中，图像补全任务中的总目标损失函数(生成器的损失函数)为：

L_total＝λ_uncL_unc+λ_perL_per+λ_styleL_style+λ_tvL_tv+λ_aavL_adv

上述的基于不确定性估计的生成对抗网络，主要是完成图像补全任务，所述生成对抗网络的最终目标为L_total，使其该损失函数降至最低并且保持稳定。

其中，重建损失函数表示为：

其中，||·||₁表示L₁范数。

cat表示连结操作。

其中，感知损失函数表示为：

其中φ是预训练的VGG-16网络。φⁱ输出第i个池化层的特征图。本发明中使用VGG-16中的pool-1，pool-2和pool-3层。

其中，风格损失函数表示为：

其中C_i表示预训练模型VGG-16的第i层输出的特征图的通道数。

其中，全变分损失函数表示为：

其中Ω表示图像中损坏区域。全变分损失函数是一个平滑惩罚顶，定义在缺失区域一个像素的膨胀域上。

其中，对抗损失函数表示为：

其中，D表示判别器，y′是某个样本的随机缩放版本，该样本是从y′和y中采样得到的，λ被设置为10。

本发明中利用所述基于不确定性估计的生成对抗网络的高度非线性拟合能力，针对图像补全这一任务，提出局部卷积层利用二值掩码图中的先验信息。其次，本发明提出内容注意力模块，使得算法可以根据图像的已知区域重建出未知区域。该编码器可以逐渐增加生成图像中的纹理细节。特别的，网络通过外加损失函数的限制可以很好地生成高质量的图像。这样通过如图1所示的网络，可以训练得到一个图像补全的模型。在测试阶段，同样使用二值掩码和损坏图像作为模型的输入，得到生成的图像补全结果，如图3所示。

基于上述的损失函数，基于不确定性估计的生成对抗网络进行如下训练：

初始化网络的权重参数，λ_unc、λ_per、λ_style、λ_tv和λ_adv分别为10，0.1，240，0.1，0.001，批处理大小为32，学习率为10^-4。

利用损坏图像和二值掩码图输入到生成器G中进行图像补全任务。生成的补全图像和真实的目标图像输入到判别器D中，依次迭代使得网络总损失函数L_total降低至趋于稳定。

用训练好的基于不确定性估计的生成对抗网络模型，对测试数据补全处理。

为了详细说明本发明的具体实施方式及验证本发明的有效性，将本发明提出的方法应用于四个公开的数据库(一个人脸数据库和三个自然数据库)——CelebA-HQ、ImageNet、Places2和Pairs Street View。CelebA-HQ中包含30000张高质量的人脸图像。Places2包含365个场景，总图像数量超过8000000张。Pairs Street View包含15000张巴黎街景图。

ImageNet是一个大型数据集，超过14亿张图像。对于Places2、Pairs Street View和ImageNet，本发明中使用原始的验证和测试集。对于CelebA-HQ，本发明中随机选取28000张图像用于训练，剩余的图像用于测试。利用二值掩码算法离线生成60000张二值掩码图。本发明中随机选取55000张二值掩码图用于训练，剩余的5000张二值掩码图用于测试(二值掩码图用于生成损坏图像)。使用本发明中设计的基于不确定性估计的生成对抗网络和目标函数，以损坏图像和对应的二值掩码图作为输入，利用生成器和判别器之间的对抗及梯度反传训练该深度神经网络。训练过程中不断调整不同任务的权重，直至最后网络收敛，得到用来人脸表情编辑的模型。

为了测试该模型的有效性，使用测试集数据进行图像补全的操作，可视化结果如图3所示。有效证明了本发明所提出方法能够生成高质量的图像。

本发明针对图像补全，提出了一个更具有广泛应用意义的方法。通过局部卷积层，可以利用二值掩码的先验信息，更加准确地补全损坏图像。内容注意力模块可以使得模型根据图像的已知区域重建出图像中的未知区域，以此生成丰富的细节信息。本发明提出的不确定性估计可以使得网络同时输出补全结果和不确定性图，最后根据不确定性图减少补全结果的不确定性。本发明提出的生成对抗网络模型，使用了多目标的优化方式，使得模型收敛更快，效果更好，并且泛化性能更强。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。