CN115115537A

CN115115537A - 一种基于掩码训练的图像修复方法

Info

Publication number: CN115115537A
Application number: CN202210523937.1A
Authority: CN
Inventors: 商彩; 贾旭; 卢湖川; 何友
Original assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Current assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-09-27
Anticipated expiration: 2042-05-13
Also published as: CN115115537B

Abstract

本发明提供一种基于掩码训练的图像修复方法，涉及计算机视觉技术领域，包括步骤：获取图像训练集中的训练样本；将训练样本输入至待训练的掩码生成模型中对所述训练样本提取特征，得到掩码生成模型输出的掩码结果；将所述掩码生成模型输出的掩码结果与训练样本相乘，得到损坏图像；得到所述图像修复模型的处理层输出的初始修复结果；将所述初始修复结果对应于损坏部分的子图像填充至损坏图像，作为中间修复结果；根据所述纹理特征和初始修复结果，得到该训练样本对的最终修复结果；本发明通过生成动态掩码，确认了图像的可预测区域，减少了对训练过程的损害，使得训练好的图像修复模型输出的修复结果与原始图像接近，保证了图像修复效果。

Description

一种基于掩码训练的图像修复方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于掩码训练的图像修复方法。

背景技术

图像修复问题需要恢复图像中缺失区域的内容并生成视觉上逼真且语义上有意义的图像。它是计算机视觉中的一个重要研究课题，具有广泛的应用，例如去除照片中不需要的对象、图像重新定位、图像处理和隐私保护。

经典的图像修复方法通过从已知区域借用内容来填充缺失区域。它们通常无法为复杂场景产生语义上有意义的结果。随着深度卷积神经网络(CNN)的快速发展，最近的研究工作已转向数据驱动的基于学习的方法。对于图像修复，可以访问无限量的训练样本，因为它们可以通过使用现有的大规模图像数据集简单地破坏在随机位置具有孔的图像来获得。使用大型训练集，深度卷积神经网络可以学习根据部分图像和孔掩码来预测孔中的图像内容。与经典方法相比，基于深度学习的方法可以更好地处理具有复杂结构和对象的挑战性案例。

然而，现有的深度卷积神经网络中的随机数据合成策略假设所有图像区域都可以从上下文中预测出来，这并不总是成立。某些区域，是不可预测的。对于具有这种缺失区域的样本，真值通常会偏离估计结果。如果将这些样本包含在训练集中，这些样本可能会导致修复结果出现伪影。

发明内容

本发明提供一种基于掩码训练的图像修复方法，能够挖掘到图像的可预测区域来训练深度修复模型。不是在训练期间随机采样孔，而是与修复网络联合训练一个掩码生成模型，为每个训练样本动态生成孔掩码。通过在最大化掩码范数的同时最小化修复损失，掩码生成模型可以学习找到大但可预测的缺失区域，作为随机掩码的更好替代方案。解决了现有图像修复方法因图像部分区域无法从上下文中预测，而产生的修复结果出现伪影的问题。

为达到以上目的，本发明采取的技术方案是：

一种基于掩码训练的图像修复方法，所述修复方法包括如下步骤：

构建图像训练集，获取图像训练集中的训练样本；

构建图像修复模型和掩码生成模型；

将所述训练样本输入至待训练的掩码生成模型中对所述训练样本提取特征，得到掩码生成模型输出的掩码结果；

将所述掩码生成模型输出的掩码结果与训练样本相乘，得到损坏图像；

将所述损坏图像及掩码结果作为训练样本对，将所述损坏图像的原始图像作为训练样本对的标注；

将所述训练样本对输入至待训练的图像修复模型的粗糙阶段，得到所述图像修复模型的处理层输出的初始修复结果；

根据所述训练样本对，将所述初始修复结果对应于损坏部分的子图像填充至损坏图像，作为中间修复结果；

将所述中间修复结果输入至图像修复模型的细化阶段，得到该训练样本对的最终修复结果；

根据各训练样本对的最终修复结果及其标注得到损失值，根据损失值调整图像修复模型的模型参数得到训练后的掩码生成模型和图像修复模型；

根据所述训练后的图像修复模型，将测试样本对输入至训练后的图像修复模型中，得到测试样本对的修复结果。

进一步地，所述掩码生成模型的训练步骤如下：

给定训练样本为x、掩码为m和图像修复模型为G；

将缺失区域中的生成器输出和已知区域中的原始图像组合，生成修复结果

修复结果

的公式如下：

其中，

表示逐元素乘法，y表示图像修复模型输出；

修复结果与原始完整图像之间的损失函数

的公式如下：

对修复结果进行最小化；

对掩码生成模型的输出掩码进行范数正则化，得到掩码生成模型的可预测区域挖掘损失，可预测区域挖掘损失L_M的公式如下：

使用sigmoid函数将掩码生成模型的输出限制为[0,1]；

在随机二进制掩码上使用带有掩码鉴别器的对抗性损失，使生成的掩码接近二进制。

进一步地，所述掩码生成模型与鉴别器组成掩码生成网络，所述鉴别器包括五层卷积层，所述鉴别器用于与掩码生成模型训练过程中进行对抗并判断输出的掩码是否符合已知随机生成掩码数据集和物体掩码分布，所述鉴别器的输入为掩码生成模型的输出结果。

进一步地，所述掩码生成模型采用全卷积神经网络结构，所述掩码生成模型包括预训练的ResNet50主干、中间核尺寸为3的卷积中间层、后接批归一化，整流线性单元，随机失活和Softmax函数。

进一步地，所述图像修复模型包括粗糙阶段和细化阶段，待修复图像先通过所述粗糙阶段得到粗糙的修复结果，再通过所述细化阶段对粗糙的修复结果进行纹理细化，所述图像修复模型卷积部分采用门控卷积，并经过逐像素L1损失和SN-patchGAN训练。

一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项基于掩码训练的图像修复方法。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项基于掩码训练的图像修复方法。

本发明的有益效果在于：

本发明通过提出训练一个以掩码生成模型输出的的可预测区域作为孔洞的图像修复模型，与修复网络联合训练一个掩码生成模型，为每个训练样本动态生成孔掩码。因此，掩码生成模型可以找到大而可预测的缺失区域，作为随机掩码的更好替代方案。通过将各损坏图像及其生成掩膜，作为各训练样本对输入图像修复模型的处理层，对各损坏图像的损坏部分进行修补，确定各初始修复结果。通过生成动态掩码，确认了图像的可预测区域，减少了对训练过程的损害，使得训练好的图像修复模型输出的修复结果与原始图像接近，保证了图像修复效果。

附图说明

为了更清楚的说明本发明的实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明系统框图。

图3为本发明最小化修复损失图。

图4为本发明掩码生成模型的具体结构图。

图5为本发明图像修复网络的粗糙阶段的具体结构图。

图6为本发明图像修复网络的细化阶段的具体结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

目前，在对图像进行修复时，通常通过使用现有的大规模图像数据集简单地破坏在随机位置具有孔的图像来获得网络输入进行训练，也就是用随机生成的掩码损坏图像，确定该损失部分对应的像素，然后将该掩码和损失图像输入修复网络，然而，随机数据合成策略假设所有图像区域都可以从上下文中预测出来，这并不总是成立。某些区域是不可预测的。对于具有这种缺失区域的样本，真值通常会偏离估计结果。

区别于现有技术中直接随机生成损害掩码，确定修复输入，本说明书提出一种新的图像修复方法，使得可基于图像的可预测部分进行修复训练，避免由于损坏部分不可预测导致修复结果较差的情况发生。

一种基于掩码训练的图像修复方法，如图1和图2所示，包括如下步骤：

构建图像训练集，获取图像训练集中的训练样本；

构建图像修复模型和掩码生成模型；

随机损坏生成的训练样本可能包含仅给定上下文无法重建的空洞，这可能会混淆训练过程，特别是对于动态可变形采样机制。为了克服这个问题，使用掩码生成模型G_M来生成对应于更可预测区域的孔。使用类似全卷积神经网络(FCN)的结构作为掩码生成模型，并带有预训练的ResNet50主干。

对于训练，给定原始图像、掩码和修复模型，通过将缺失区域中的生成器输出和已知区域中的原始图像组合生成修复结果。损失为修复结果与原始完整图像之间的L1距离和对抗生成网络(GAN)损失。因此，对于给定的图像和修复模型，损失取决于孔掩码。如果缺失的区域无法重建，损失会很大。因此，通过最小化修复损失来避免这些区域。此外，由于简单地最小化修复损失会导致所有元素都为零的平凡解，因此添加掩码范数正则化来避免这种情况，使其尽可能小。

图像修复是一项在缺失区域中合成替代内容的任务，以使修改在视觉上真实，语义上正确。它允许删除令人分心的对象或修饰照片中不需要的区域。它还可以扩展为包括裁剪、旋转、拼接、重新定位、重新合成、压缩、超分辨率、协调和许多其他功能。研究中，主要是对受到损坏的图像进行修复重建，同时保证图像修复后的效果。传统方法使用高斯滤波或者纹理合成的方法进行修复。前者仅考虑了破损区域边缘一周的图像颜色值，所以能处理的损坏区域小，后者是由外向内逐步修复图像，所以效率很差。基于深度学习的方法主要是利用GAN，先修复缺损的特征，之后将特征还原为修复图像。图像修复网络将输入图像和上述生成掩码一同作为修补网络的输入，对掩码区域进行补全。具体使用时，以f指代修复网络，网络输入为：RGB原图，二进制mask图。输入时按照RGB，mask的顺序级联，整体作为修复网络输入，网络输出结果取mask区域，与RGB原图相加，作为最终输出：

Output＝RGB+mask×f(RGB,mask)

可挖掘区域生成

现有的基于深度学习的图像修复方法通过破坏随机区域的图像来生成训练数据，而不考虑缺失区域的可预测性，这将导致伪影。为了解决这个问题，训练一个用掩码生成模型输出的的可预测区域作为孔洞的修复模型。具体来说，与修复网络联合训练一个掩码生成模型，为每个训练样本动态生成孔掩码。因此，掩码生成模型可以找到大而可预测的缺失区域，作为随机掩码的更好替代方案。

对于训练，给定图像x、maskm和修复模型G，通过将缺失区域中的生成器输出和已知区域中的原始图像组合生成修复结果

如下所示，

其中

表示逐元素乘法；y代表发电机输出。令

表示修复结果与原始完整图像之间的损失函数。它可以写成

从上式我们可以看到，对于给定的图像和修复模型，损失取决于孔掩码。如果缺失的区域无法重建，损失会很大。因此，可以通过最小化修复损失来避免这些区域，如图3所示。

此外，由于简单地最小化损失函数公式会导致所有元素都为零的平凡解，因此添加掩码范数正则化来避免这种情况。掩码生成模型的可预测区域挖掘损失L_M如下：

我们使用sigmoid函数将掩码生成模型的输出限制为[0,1]。但是，在修复的典型用例中，掩码应该是二进制的。为了鼓励生成的掩码接近二进制，类似于Eqn.1和Eqn.2中图像的对抗性损失。在训练期间，以0.5的概率对生成的掩码进行随机二值化，然后通过修复模型以使修复模型同时适应软孔掩码和二进制孔掩码。

掩码生成网络的主体结构为生成式对抗网络，由掩码生成模型与鉴别器组成。生成器主要由Resnet50，以及中间核尺寸(kernel size)为3的卷积中间层，以及后接批归一化(Batch Normalization)，整流线性单元(ReLU)，随机失活(Dropout)以及Softmax函数组成，如图4所示。鉴别器用于与掩码生成模型网络在训练过程中进行对抗，由五层卷积层组成，最终判断输入的图像是否符合已知随机生成掩码数据集和物体掩码分布。鉴别器的输入为生成器最终的输出结果。虽然鉴别器并不参与后续的生成，但是鉴别器得到的对抗损失对于生成对抗网络的训练至关重要，鉴别器也是生成对抗网络中的对抗因素，能够让生成器得到更有效的结果。

图像修复

图像修复训练全程分为两部分：纹理补全与结构补全。图像修复的整体过程，先将待修复图像、待修复区域掩膜共同输入到网络中，将待修复图像与指示修复区域的掩膜(上述步骤生成)拼接后，作为网络输入。网络最终输出三通道RGB图像，为修复后的图像。

在后续的图像修复网络中，将网络输出的边缘与原图生成的边缘组合成完整的图像边缘信息，将其与输入图像和待修复区域掩膜一同作为图像修复网络的输入，用于对待修复区域进行补全。

图5和图6明了所提出的修复网络的整体架构，它由粗糙阶段(图5)和细化阶段(图6)组成。粗糙阶段旨在用粗略的结构填充孔洞。粗糙阶段生成器G₀的解码器根据结构重构编码器的输出生成粗略的修复结果。细化阶段生成器G₁旨在细化粗糙阶段结果的纹理，由标准卷积层和扩张卷积层组成。每个生成器G_i,i>0的解码器然后将两个编码器计算的连接特征解码为相应比例的RGB图像。

使用金字塔L1损失来逐步监督每个尺度上缺失区域的预测。具体而言，每个金字塔损失是特定尺度上的预测和相应的真值之间的归一化L1距离：

其中，

表示i级中的预测图像，i＝0,1，x_i表示对应真值。

采用PatchGAN作为最细尺度的鉴别器，并在鉴别器中使用谱归一化来稳定训练。生成器的对抗性损失定义为：

L_adv＝E_z,x～p(z,x)[ReLU(1-D(G(z)×m+z))]

鉴别器的对抗性损失定义为：

L_D＝E_x～pdata(x)[ReLU(1-D(x))]+E_z～pz(z)[ReLU(1+D(G(z)×m+z))]

其中，x表示真实图像，z表示孔内像素设置为零的不完整图像；m表示孔掩模，其中值为1的像素属于孔；G(·)表示整个生成器。p_data表示真实数据的分布，z～p_z表示噪声的分布。

整个金字塔网络通过最小化对抗损失、金字塔L1损失来优化。我们将总体目标函数定义为：

L_G＝L_r+L_adv。

本说明书还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项基于掩码训练的图像修复方法。

本说明书还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项基于掩码训练的图像修复方法。

在本申请所提供的实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于掩码训练的图像修复方法，其特征在于，所述修复方法包括如下步骤：

构建图像训练集，获取图像训练集中的训练样本；

构建图像修复模型和掩码生成模型；

2.根据权利要求1所述的基于掩码训练的图像修复方法，其特征在于，所述掩码生成模型的训练步骤如下：

给定训练样本为x、掩码为m和图像修复模型为G；

修复结果

的公式如下：

其中，

表示逐元素乘法，y表示图像修复模型输出；

修复结果与原始完整图像之间的损失函数

的公式如下：

对修复结果进行最小化；

使用sigmoid函数将掩码生成模型的输出限制为[0,1]；

3.根据权利要求2所述的基于掩码训练的图像修复方法，其特征在于，所述掩码生成模型与鉴别器组成掩码生成网络，所述鉴别器包括五层卷积层，所述鉴别器用于与掩码生成模型训练过程中进行对抗并判断输出的掩码是否符合已知随机生成掩码数据集和物体掩码分布，所述鉴别器的输入为掩码生成模型的输出结果。

4.根据权利要求1所述的基于掩码训练的图像修复方法，其特征在于，所述掩码生成模型采用全卷积神经网络结构，所述掩码生成模型包括预训练的ResNet50主干、中间核尺寸为3的卷积中间层、后接批归一化，整流线性单元，随机失活和Softmax函数。

5.根据权利要求1所述的基于掩码训练的图像修复方法，其特征在于，所述图像修复模型包括粗糙阶段和细化阶段，待修复图像先通过所述粗糙阶段得到粗糙的修复结果，再通过所述细化阶段对粗糙的修复结果进行纹理细化，所述图像修复模型卷积部分采用门控卷积，并经过逐像素L1损失和SN-patchGAN训练。

6.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～5任一项所述的方法。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～5任一项所述的方法。