CN111861945A

CN111861945A - 一种文本引导的图像修复方法和系统

Info

Publication number: CN111861945A
Application number: CN202010993094.2A
Authority: CN
Inventors: 赵洲; 童鑫远; 蔡登�; 何晓飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-10-30
Anticipated expiration: 2040-09-21
Also published as: CN111861945B

Abstract

本发明公开了一种文本引导的图像修复技术方法和系统，属于计算机视觉的图像修复领域。主要包括如下步骤：1）针对于一组图像、引导文本训练集，通过一个由粗到精的图像修复模块，学习图像信息与文本信息的联合表征并生成合理的修复图像。2）对于图像修复模块生成的图像，通过一个文本重构模块，学习修复图像与引导文本间的语义相关性，推测引导文本的蒙版部分。本发明采用引导文本指导模型生成语义一致，视觉连贯且可控的图像，采用一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像，采用一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测，提高视觉文本一致性。

Description

一种文本引导的图像修复方法和系统

技术领域

本发明涉及图像修复领域，尤其涉及一种文本引导的图像修复方法和系统。

背景技术

图像修复是计算机视觉领域中一个基础而重要的主题，其旨在补全一个部分蒙版图像的缺失区域并输出合理图像。大多数现有的图像补全方法都是通过扩展或者借用周围区域中的信息来补全缺失区域，这些方法在缺失区域与其周围区域相似时可以起到很好的效果。然而，如果周围区域中没有足够的相关信息可以利用，则这些方法生成的图像将不尽如人意。

近年来，许多利用人为引导辅助图像修复的技术不断被提出，然而它们大多是采用基于结构的方式，例如人为添加边界线，划定参考区域及指定扩展方向等，而非基于内容的方式。这些方法在待修复区域结构不清晰的条件下具备一定的提高图像修复的能力，但是它们只能影响待修复区域的轮廓形状、大小等结构特征，而无法影响待修复区域的颜色等内容特征，其得益于结构引导又受限于结构引导，往往只能生成单一的图像，缺乏多样性。

综上，现有图像修复技术还不能有效地控制图像修复结果，在提高图像修复的准确性以及多样性方面具备一定的局限性。

发明内容

本发明的目的在于解决现有技术中的图像修复多样性不足问题，将文本引导的技术引入图像修复领域，提出了一种文本引导的图像修复方法和系统，采用文本描述指导模型生成语义一致，视觉连贯且可控的图像，提出了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像，采用一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测，提高视觉文本一致性。

为了实现上述目的，本发明具体采用如下技术方案：

一种文本引导的图像修复方法，包括如下步骤：

1）获取源图像及引导文本，将源图像预处理为待修复图像序列，将引导文本预处理为引导文本特征序列；

2）建立由修复模块和重构模块组成的神经网络模型；

修复模块将待修复图像序列及引导文本特征序列作为输入，编码图像与文本特征，并解码得到待修复图像与引导文本的跨模态联合表征，最终输出修复图像序列；

重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入，生成预测引导文本；

3）将修复模块作为生成对抗网络的生成器，构建一个判别器对生成的修复图像序列进行判别，输出判别结果；

4）根据生成对抗网络的判别结果、修复模块生成的图像修复序列以及重构模块生成的预测引导文本，计算判别器和神经网络模型的多任务损失函数并更新网络参数，得到训练好的网络模型；

5）根据训练好的网络模型的修复模块，将要修复的图像与对应的引导文本特征序列作为修复模块的输入，采用自回归的方式逐步生成最终的修复图像。

本发明的另一目的在于提供一种文本引导的图像修复系统，用于实现上述的修复方法，包括：

数据获取模块：用于获取源图像及引导文本；

数据预处理模块：用于将源图像处理为待修复图像序列，将引导文本预处理为引导文本特征序列；

修复模块：用于根据待修复图像序列及引导文本特征序列，生成修复图像序列；

重构模块：用于将引导文本进行随机蒙板，获得随机蒙板的引导文本特征序列，并结合修复模块输出的修复图像序列，生成预测引导文本；

判别模块：用于对修复模块输出的修复图像序列进行判别，输出判别结果；

训练模块：用于根据多任务损失函数对修复模块、重构模块和判别模块进行训练，训练结束后保存模型参数文件；

修复任务执行模块：当接收到图像修复信号时，读取数据预处理模块生成的待修复图像序列和引导文本特征序列，加载训练模块生成的模型参数文件，得到训练好的模型；将待修复图像序列和引导文本特征序列作为模型输入，生成修复图像并保存。

相对于传统方法，本发明有效提升了图像修复的准确性以及多样性，具体体现在：

（1）本发明将文本引导技术引入到图像修复领域，设计了一种由修复模块和重构模块组成的神经网络模型，修复模块将待修复图像序列及引导文本特征序列作为输入，编码图像与文本特征，并解码得到待修复图像与引导文本的跨模态联合表征，最终输出修复图像序列；重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入，生成预测引导文本。

在训练阶段，采用文本-图像-文本的训练方法，通过文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测，以生成语义一致、视觉连贯、多样可控的修复图像。

（2）针对一步修复图像过于困难的问题，本发明设计了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像。具体的，利用n个并行独立的Unet编码-解码网络，在训练阶段时，将图像预处理为待修复图像序列并进行n步的编码-解码处理，并在待修复图像序列的特征图中添加未来掩码，当Unet解码器生成第i幅修复图像时无法获取第i幅之后的待修复图像信息。在实际修复阶段，以待修复图像作为第一个Unet编码器的输入，并将第一个Unet解码器的输出作为下一个Unet编码器的输入，如此循环，逐步完成图像的修复。

（3）本发明还设计了一种生成对抗网络，将修复模块作为生成器，构建一个判别器对生成的修复图像序列进行判别，强迫修复模块生成合理的、高质量的、和文本一致的修复图像，有效地提升了修复模块的性能。

附图说明

图1是本发明所使用的文本引导的图像修复方法的整体示意图。

图2是本发明所使用的视觉/文本编码器的结构示意图。

图3是本发明所使用的视觉/文本解码器的结构示意图。

图4是本实施例的修复效果图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明用文本引导图像修复，包括如下步骤：

步骤一、对于输入的源图像及引导文本，生成待修复图像序列，通过一个修复模块，学习出待修复图像与引导文本的跨模态联合表征，最终输出修复图像序列；

步骤二、对于生成的修复图像序列，使用生成对抗网络进行判别；同时采用一个重构模块，学习修复图像序列与蒙版文本的跨模态联合表征，最终输出预测引导文本；

步骤三、对于要修复的图像和与预测引导文本，根据生成的最终网络模型，得到逐步修复的图像。

在本发明的一项具体实施中，步骤一的实施过程如下：

1.1）获取一张未蒙版的源图像，生成待修复图像序列。

所述的待修复图像序列生成步骤为：在尺寸为128×128的原图像I中心添加一个 64×64大小掩码M，得到被蒙版的图像

，接着在源图像上添加一个模糊度递减的方框模糊滤波器，得到余下的待修复图像

，组合得到待修复图像序列

，n为待修复图像的个数。

1.2）修复模块接受待修复图像序列及引导文本作为输入，编码其图像与文本特征，并解码得到跨模态联合表征，最终输出修复图像序列。

具体地，对于引导文本

，

为引导文本中的第i个单词，n为引导文本中单词的个数；先使用预训练的word2vec嵌入提取文本特征，其公式为：

，

是引导文本中的第i个单词的语义特征；结果再经由文本编码器进行特征编码，得到编码后的文本特征。

建立n个彼此独立的UNet网络

，其编码网络部分记为

，并行提取n个待修复图像特征，其公式为：

，

是待修复图像序列中的第i个待修复图像特征。

将上述结果使用视觉解码器

进行解码，得到跨模态联合表征

，其公式为：

。

将UNet编码网络

生成的n个待修复图像特征复制到对应解码网络

当中，并采用解码网络对

进行解码，得到修复后的图像序列

，其公式为：

，

为第i步修复后的图像，对应于第i个待修复图像以及第i个UNet网络，

即为最终修复图像。

上述过程中，为了并行化由粗到精的图像修复过程，本发明在待修复图像特征

上添加了未来掩码，使得在生成

时无法获取

的信息；因Transfomer网络不考虑时序信息，故本发明在生成修复图像特征

以及引导文本

之后，分别对其进行位置嵌入以储存其时序信息。

上述过程中，所使用的文本编码器与视觉解码器结构基于Transformer，如图2和图3所示。具体的，视觉/文本编码器由N个编码子块堆叠构成，每一个编码子块包括一个多头注意力层和一个前馈层，其中多头注意力层和前馈层后面均连接一个残差连接与归一化层。视觉/文本解码器包括两个多头注意力层和一个前馈层，其中多头注意力层和前馈层后面均连接一个残差连接与归一化层，第一多头注意力层的输入为解码器的输入，第二多头注意力层的输入为解码器的输入与第一多头注意力层的输出。

所使用的UNet网络为带有残差连接的对称7层向下编码结构和7层向上解码结构的网络，其使用最后一个编码层的特征图与编码后的文本特征进行交互，其编码网络和解码网络均使用ReLu-Convolution-BatchNorm形式的模块。

在本发明的一项具体实施中，步骤二的实施过程如下：

2.1）将修复模块作为生成对抗网络的生成器，构建一个判别器对生成的修复图像进行判别。

具体地，由于本发明采用由粗到精的逐步生成方法，故所述生成对抗网络应用于每一步生成以提高生成器（修复模块）的生成能力；其n个判别器

基于n个UNet编码网络，其结构与JCU判别器相同，包括条件判别与无条件判别两个部分；本发明使用无条件判别部分帮助模型判别生成图像的真实性以提高图像质量，使用条件判别部分帮助模型判别生成图像与引导文本的匹配性以提高视觉文本一致性，其训练过程可视作一个两玩家 min-max游戏，其目标函数为：

其中， D(x)、D(y)为JCU判别器无条件判别结果，D(x,c)、D(y,c)为条件判别结果，G(x) 为生成器，

是服从p _input分布的待修复图像序列x的判别结果的期望，与判别得分正相关；

是服从G(x)分布的修复图像序列y的判别结果期望，与判别得分负相关；min_G 是生成器最小化

，最大化

的选择过程，max_D是判别器最大化

，最小化

的选择过程，整体过程是一个两玩家min-max对抗过程，旨在生成尽可能与待修复图像序列x相似的修复图像序列y；c为编码后的文本特征经过平均池化操作得到的聚合文本特征。

2.2）重构模块接受修复图像序列作为输入，输出对于经随机蒙版的引导文本的预测结果。

具体地，使用预训练的word2vec嵌入结构提取引导文本的蒙版文本特征

；

使用n个UNet编码器提取修复图像序列的修复图像特征

，并使用视觉编码器进行编码，得到编码后的修复图像特征。

使用文本解码器对蒙版文本特征

和编码后的修复图像特征进行解码，得到跨模态语义表达

。

通过全连接层计算引导文本中的每个蒙版位置在词汇表上的能量分布情况

以预测蒙版词，得到文本重构结果（预测引导文本）；其中能量分布计算公式为：

，其中

为位置i的能量分布，

为词汇表的单词数目。

在本实施例中，所述重构模块中用于提取修复图像特征

的n个UNet编码器复用修复模块的后n-1个UNet编码器，具体为：使用修复模块的UNet编码器

对应提取修复图像

的图像特征，并新添加一个仅用于重构模块的UNet编码器

提取修复图像

的图像特征。

2.3）使用多任务学习策略根据生成对抗网络结果，图像修复结果以及文本重构结果计算多任务损失函数并更新网络参数，得到最终的网络模型；

具体地，在修复模块生成修复图像序列之后，将修复图像序列与待修复图像序列进行比较，计算L1损失

，比较像素点级的误差，其损失函数具体为：

其中，当i=n时，

表示原始图像I，W为权重矩阵，其对于未蒙版区域取0，对于蒙版区域取

，d为该蒙版点与最近的未蒙版点之间的距离，

在本发明中取固定值0.99；

为修复图像序列中第i个图像的L1损失；

为按元素乘积符号，

为1-范数，计算两图像间对应像素点的各通道误差的绝对值之和。

在修复模块生成修复图像序列之后，在修复图像序列内部计算总变化损失

，损失用于图像去噪以生成更平滑的图像，其损失函数具体为：

其中u,v为该像素点的坐标，且u+1,v+1的值限定在图像坐标边界之内，

为修复图像序列中第i个图像的坐标点为(u,v)的像素点。

为修复图像序列中第i个图像的TV损失。

在修复模块生成修复图像序列之后，使用生成对抗网络的判别器（UNet网络的7层向下解码结构）对生成的修复图像序列进行判别，计算对抗损失；对抗损失旨在使得生成的

尽可能地与

相似，同时缓解L1损失带来的生成图像模糊的问题，以提高修复模块的修复能力；对抗损失包括判别器损失

与生成器损失

两部分，每部分又包含条件损失与无条件损失两部分，其损失函数具体为：

其中，

为修复图像序列中第i个图像的判别器损失，

为修复图像序列中第i个图像的生成器损失，

、

为判别器的无条件判别结果，

、

为条件判别结果，

为编码后的文本特征经过平均池化操作得到的聚合文本特征。

在重构模块完成文本重构之后，计算重构损失

，为每个蒙版单词计算负对数似然值并借此训练重构模块，提升其从视觉情境中提取重要信息并正确预测蒙版词的能力；其损失函数具体为：

其中，

为引导文本中的所有蒙版位置的集合，

为蒙版第i处的能量分布，

为引导文本第i处的真实词，

是基于蒙版第i处的能量分布而正确生成对应真实词的概率。

在获取上述所有损失函数之后，将其结合并计算多任务损失函数，以端到端的方式训练整个神经网络；其中，用于训练判别器的损失具体为：

用于训练生成器的损失具体为：

其中，

用于控制多步骤生成中第i步的权重，

、

为超参数，用于控制不同损失之间的平衡。

在本发明的一个具体实施中，提出了一种文本引导的图像修复系统，并给出了下述介绍。

数据获取模块：用于获取源图像及引导文本；

数据预处理模块：用于将源图像处理为待修复图像序列，将引导文本预处理为引导文本特征序列；在本实施例中，使用一个模糊度递减的方框模糊滤波器生成待修复图像序列。

其中，所述的训练模块采用多任务损失函数，包括：

用于训练判别器的损失

。

用于训练生成器的损失

，其中

用于控制多步骤生成中不同步的权重，

、

用于控制不同损失之间的平衡。

所述多任务损失涉及如下子损失：

L1损失

，

，其中，

为原始图像I，W为权重矩阵，其对于未蒙版区域取0，对于蒙版区域取

，d为该蒙版点与最近的未蒙版点之间的距离，

在本发明中取固定值0.99；该损失惩罚每一步生成过程的像素级误差。

总变化损失

，

，其中

为该像素点的坐标，且

的值限定在图像坐标边界之内；该损失用于图像去噪以生成更平滑的图像。

重构损失

，其中

为所有蒙版位置的集合，

为蒙版点i处的能量分布，

为引导文本第i处的真实词，本误差为每个蒙版单词计算负对数似然值并借此训练重构模块，提升其从视觉情境中提取重要信息并正确预测蒙版词的能力。

对抗损失包含判别器损失

与生成器损失

两部分，每部分又包含条件损失与无条件损失两部分，具体为：

对抗损失旨在使得生成的

尽可能地与

相似，同时它可以缓解L1损失带来的生成图像模糊的问题。

其中，所述的修复模块包括：

第一编码-解码模块：由由文本编码器、视觉解码器构成，由文本编码器对引导文本特征序列进行编码，获得编码后的文本特征；由视觉解码器对编码后的文本特征与特征图进行解码，得到跨模态联合表征

。

Unet编码-解码模块：由n个Unet编码器、n个Unet解码器构成，由n个UNet编码器提取待修复图像序列的特征图；将UNet编码器生成的特征图复制到对应的Unet解码器中，并采用Unet解码器对跨模态联合表征

进行解码，得到修复图像序列。

其中，所述的重构模块包括：

Unet编码模块：包括n个并行独立的Unet编码器，由n个UNet编码器提取修复图像序列的修复特征图，其中使用修复模块的UNet编码网络中的后n-1个UNet编码器提取修复图像序列中前n-1个修复图像的修复特征图，并新添加一个仅用于重构模块的UNet编码器来提取修复图像序列中第n个修复图像的修复特征图。

第二编码-解码模块：由视觉编码器、文本解码器构成，由视觉编码器对修复特征图进行编码，获得编码后的修复特征图；由文本解码器对随机蒙板的引导文本特征序列与编码后的修复特征图进行解码，得到跨模态联合表征

，并通过全连接层计算随机蒙板的引导文本中的每个蒙版位置在词汇表上的能量分布，生成预测引导文本。

在本申请所提供的具体实施方式中，应该理解到，以上所描述的系统实施例仅仅是示意性的，例如所述修复模块和重构模块，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接，可以是电性或其它的形式。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在CUB-200-2011及Oxford-102两大数据集上进行实验验证，其中， CUB-200-2011数据集包含11788张图像，其中包含200种不同类别的鸟类；而Oxford-102数据集包含8189张图像，其中包含102种不同类别的花。

本发明将它们随机分为不相交的训练和测试数据集，并为每个图像随机选择3个标题作为文本输入；对于输入的图像先进行缩放，使之高和宽中的较小值为128，并在中心裁剪出128×128的大小的图像作为源图像，生成长度为4的待修复图像序列，

中心掩码尺寸为64×64，

模糊半径依次为4,2,1；对于输入的文本，使用NLTK进行分词，并使用 cased-300d版本的预训练word2vec Glove进行特征提取。

在对比对象方面，由于此前没有类似的研究，故而对AttnGAN 和TAGAN的模型结构和参数进行调整以使其适应文本引导的图像修复任务；具体来说，对于AttnGAN，使用预训练的模型提取输入蒙版图像的特征，并将其与注意力生成网络的原始输入连接起来；对于TAGAN，本发明将输入蒙版图像而非整个源图像，仅保留L1损失及GAN损失以训练模型；此外，引入传统的图像修复模型Contextual Attention作为另一个基准，该模型仅将蒙版图像作为输入并直接进行修复。

在测试评价标准方面，本发明遵循图像修复惯例，采用三种常见的定量评估指标，即峰信噪比（PSNR），总变化损耗（TV）和结构相似度（SSIM）来评估生成结果。

表1和表2是本发明在CUB-200-2011数据集、Oxford-102数据集上的实验结果，其中↑代表越高越好，↓代表越低越好。

表1 CUB-200-2011数据集上的实验结果

表2 本发明在Oxford-102数据集上的实验结果

针对传统方法鲜有利用基于内容的人为引导的问题，本发明设计了一种利用文本描述指导模型修复图像的技术，并采用文本-图像-文本的训练方法，设计了一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测，以生成语义一致、视觉连贯、多样可控的修复图像。

针对一步修复图像过于困难的问题，本发明设计了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像。

本发明还设计了一种生成对抗网络，将修复模块作为生成器，强迫修复模块生成合理的、高质量的、和文本一致的修复图像，有效地提升了修复模块的性能。

从表1和表2可以看出，本发明对鸟类图像和花类图像的修复效果，在三个经典评价标准上都已超过了传统方法，实现了修复准确率上的提高。

此外，如图4所示，本发明还实现了可控的多样性图像修复，本发明能够通过修改文本中对应的颜色单词，生成各种颜色的鸟类图像与花类图像，而这也是结构引导的图像修复方法无法实现的。除了修改颜色词之外，还可以任意修改其他的词，可以从图4中看出，每一行相对应的四个修复结果均存在差异，即可以通过引导文本的内容对修复的图像进行控制，实现可控的多样性图像修复效果。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种文本引导的图像修复方法，其特征在于，包括以下步骤：

2）建立由修复模块和重构模块组成的神经网络模型；

2.根据权利要求1所述的一种文本引导的图像修复方法，其特征在于，所述的修复模块包括第一编码-解码网络，以及n个并行独立的Unet编码-解码网络，所述的第一编码-解码网络由文本编码器、视觉解码器构成，Unet编码-解码网络由n个Unet编码器、n个Unet解码器构成；

由文本编码器对引导文本特征序列进行编码，获得编码后的文本特征；

由n个UNet编码器提取待修复图像序列的特征图；

由视觉解码器对编码后的文本特征与特征图进行解码，得到跨模态联合表征f^c；

将UNet编码器生成的特征图复制到对应的Unet解码器中，并采用Unet解码器对跨模态联合表征f^c进行解码，得到修复图像序列。

3.根据权利要求2所述的一种文本引导的图像修复方法，其特征在于，在待修复图像序列的特征图中添加未来掩码，当Unet解码器生成第i幅修复图像时无法获取第i幅之后的待修复图像信息。

4.根据权利要求2所述的一种文本引导的图像修复方法，其特征在于，所述重构网络包括第二编码-解码网络，以及n个并行独立的Unet编码器，所述的第二编码-解码网络由视觉编码器、文本解码器构成；

对引导文本进行随机蒙板处理；

由n个UNet编码器提取修复图像序列的修复特征图，其中使用修复模块的UNet编码网络中的后n-1个UNet编码器提取修复图像序列中前n-1个修复图像的修复特征图，并新添加一个仅用于重构模块的UNet编码器来提取修复图像序列中第n个修复图像的修复特征图；

由视觉编码器对修复特征图进行编码，获得编码后的修复特征图；

由文本解码器对随机蒙板的引导文本特征序列与编码后的修复特征图进行解码，得到跨模态联合表征f^p，并通过全连接层计算随机蒙板的引导文本中的每个蒙版位置在词汇表上的能量分布，生成预测引导文本。

5.根据权利要求4所述的一种文本引导的图像修复方法，其特征在于，所述的第一编码-解码网络和第二编码-解码网络采用基于Transformer模型的编码器与解码器，且视觉编码器与视觉解码器共享参数，文本编码器与文本解码器共享参数；所述的UNet编码器和Unet解码器均由激活函数层-卷积层-BatchNorm层构成的模块组成。

6.根据权利要求1所述的一种文本引导的图像修复方法，其特征在于，所述的UNet编码-解码网络使用带有残差连接的对称7层向下编码结构和7层向上解码结构，并使用最后一个编码层的特征图与编码后的文本特征进行交互。

7.根据权利要求1所述的一种文本引导的图像修复方法，其特征在于，使用一个模糊度递减的方框模糊滤波器生成待修复图像序列。

8.根据权利要求1所述的一种文本引导的图像修复方法，其特征在于，步骤3）具体为：

构建生成对抗网络，以修复模块作为生成对抗网络的生成器，基于UNet编码网络构建JCU判别器作为生成对抗网络的判别器，所述判别器由条件判别器与无条件判别器构成；

由判别器对生成的修复图像序列进行判别，输出判别结果；判别器的目标函数为： \