CN114022372A

CN114022372A - 一种引入语义损失上下文编码器的掩膜图像修补方法

Info

Publication number: CN114022372A
Application number: CN202111238985.8A
Authority: CN
Inventors: 赵亮; 刚占鑫; 姚晨辉; 高树达; 马希达
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-02-08
Anticipated expiration: 2041-10-25
Also published as: CN114022372B

Abstract

本发明提供一种引入语义损失上下文编码器的掩膜图像修补方法，属于掩膜图像修补领域。包括以下步骤：首先，数据集的处理和分割后，利用上下文编码器算法的编码器—解码器结构完成从掩膜图片到生成图像的生成。其次，利用注意生成对抗网络的生成器完成生成图像的生成并同上下文编码器模块生成的图像进行交叉熵计算。最后，利用深度注意力多模态相似模型计算图片和文本之间的损失。本发明通过引入语义损失弥补了传统的深度学习方法对于大范围掩图像修补的性能较差的缺点，在该种图像修复领域有着更好的表现。

Description

一种引入语义损失上下文编码器的掩膜图像修补方法

技术领域

本发明涉及从掩膜图像到真实图像的生成任务领域，提出一种基于上下文编码器(Context-Encoder)模型和注意生成对抗网络(AttnGAN，AttentionGenerativeAdversarial Networks)模型以引入语义损失的掩膜图像修补方法。

背景技术

在现实生活中被损坏的图片是常常存在的，比如人工贴不透明掩码或者时间悠久的老照片，对于人类来说可以通过自己的认知猜测图片缺失的部分，但是要想得到修复的图片常常要寻求专业人士的重新绘制，往往需要耗费巨大的人力成本，因此，利用计算机自主修复图片的技术应运而生。

在上世纪出现了一系列的计算机视觉算法用来修复图片中的缺失部分，其中具有代表性的一种算法是基于快速行进法(Fast Marching Method)的补绘算法，该算法由缺失部分的边界到中心逐像素填充，使用临近的像素点取加权均值来填充相对的中心值，不断迭代，修复整个图片。这种算法运算速度快，对于小范围的恢复可以接受，但是大范围的恢复效果无法保证，并且常常不能得到好的结果。另一类算法是逐区块填充的算法来进行图像修复工作，这种方法每次使用计算的相似度最高的部分填充未知区域的一个区块，先计算需要填充的区块的优先级，其后从已知部分中搜索和待填充部分相似度最高的部分，最后将相似度最高的部分复制到原有图像。这类算法可以处理较大的面积，但是因为每填充一个部分就要对整个图片做搜索，整体计算复杂度极高。

在深度学习出现之后，图片修复领域有了长足的发展。深度学习在图片修复领域将掩膜图片中已存在部分的提取出来的信息来修复出真实图像。得益于卷积神经网络(CNN，Convolutional Neural Networks)的发展，在学术以及工业上现在已经有了快速而高效的从图片中提取特征信息的方法。根据使用提取信息的方式的不同，有上下文编码器(Context-Encoders)算法、边优先(Edge-Connect)算法、递进式修补(ProgressiveGenerative)算法等几种不同的方式：

基于上下文编码器(Context-Encoders)算法：该算法包含一个捕获掩膜图像上下文并将其转化成特征表示的编码器和使用这种特征来生成图像缺失部分的解码器，本身还包含一个判别器用以判断生成器是否生成了真实的生成图像。其中对抗网络的生成器部分是一个编码器-解码器管道，在该算法中的这个管道使用VGGNet(Visual Geometry GroupNetwork)架构，VGGNet是一种卷积神经网络(CNN)网络上的变种，在传统的卷积神经网络(CNN)网络上提高了网络的深度，因此判别性能有一定的提升，编码器用来学习缺失图片已知部分的特征，并由此预测缺失部分的图像内容，通过编码器学习出的结果由解码器接受该特征并产生缺失的图像内容。在此基础上整个算法还包括一个判别器，判别器用来判断当前生成器结果的优劣性，同时增加一个对抗性损失。通过循环训练判别器和生成器来训练生成器的网络。该算法开创性的在图像修复领域使用深度学习方法，本质上其实已经是一个多模态网络，这种算法本身存在着图片缺失区域较大时修复效果较差，得到比较平滑或者模糊的修复结果的情况。

基于边优先算法(Edge-Connect)：边优先算法认为图片中最重要的是线条，该算法由两个对抗网络构成，分别是一个由掩膜图像生成轮廓的对抗神经网络，和一个由轮廓生成真实图像的对抗神经网络。该算法的损失主要由两部分构成，第一部分是生成图像轮廓的损失，第二部分则是由轮廓生成真实图像的损失。但是当这种算法在收到缺失比较大区域的情况下也容易得到较差的结果，这主要是因为完全无法生成对应的轮廓。

基于递进式修补算法(Progressive Generative)：该算法采用了由外到内的渐进式生成方法，即不会一次性的修复整个掩膜内容，而是每次修复一圈内容，这种算法认为从外到内的渐进式的生成方法式更合适修复任务，同样基于上下文编码器(Context-Encoder)结构，将整个任务划分成几个子任务，从前面的子任务开始，前面的子任务可以帮助后面的子任务简化学习过程，因此可以提高计算速度同时也可以得到更精细化的结果。但是该网络也存在对于图像缺失一个实体的情况缺少处理的问题，在这种情况下并不会对上下文编码器(Context-encoder)结构有所改进，但是可以将处理结果表现得更加清晰。

发明内容

上下文编码器(Context-Encoders)算法是掩膜图像修复领域最有力的工具之一，该算法利用一个编码器-解码器管道结构学习缺失图片已知部分的特征，并由此预测缺失部分的图像内容，但是当缺失部分过大时这种方法修复效果较差，得到比较平滑或者模糊的修复结果的情况。针对该种情况，本发明基于上下文编码器(Context-Encoders)和注意生成对抗网络(AttnGAN)，提出一种引入语义损失上下文编码器(Context-Encoders)的掩膜图像修补方法，通过引入注意生成对抗网络(AttnGAN)，利用其中的深度注意力多模态相似模块(DAMSM，Deep Attentional Multimodal Similarity Model)在从掩膜图像生成生成图像的上下文编码器增加语义损失，以及在文本生成图片的注意生成对抗网络(AttnGAN)中增加了来自于上下文编码器(Context-Encoders)的图像向量来代替原论文中提到的噪音向量，并且将文本语义与图像的损失作为了图像的评判标准，从而使得当受损图片缺失部分过大时，通过上下文像素预测或者通过图片中的线条预测等方法失去可靠性时，引入了语义上的帮助，可以帮助算法更好的关注图片修复的语义损失情况，其中，生成图像是指通过通过计算机程序修复完成的无掩膜图像；同时，本发明利用注意生成对抗网络(AttnGAN)的生成器生成生成图像，将其与上下文编码器(Context-Encoders)生成的生成图像之间计算交叉熵损失。实验表明，通过本发明的方式修复图片能得到更好的修复效果。

为了达到上述目的，本发明采用的技术方案为：

一种引入语义损失上下文编码器的掩膜图像修补方法，具体包括以下步骤：

第一步，利用上下文编码器算法(Context-Encoders)的编码器—解码器结构完成从掩膜图片到生成图像的生成。

利用编码器接收掩膜图像，并通过提取和分析掩膜图像周围的图像特征来预测图像缺失部分的特征表示，本发明中编码器架构是VGGNet(Visual Geometry GroupNetwork)架构，VGGNet实际上是一种改进的卷积神经网络，该网络加深了卷积神经网络的深度，改进了原始卷积神经网络的性能。

利用解码器接收编码器预测图像缺失部分的特征表示并生成图像缺失部分。其中解码器部分首先由五个上层卷积层组成，它是一种结合上采样和卷积运算的方法，目标是获得更高分辨率的图像，每个卷积层都有一个修正线性单元(RELU，Rectified LinearUnit)激活函数，该函数通过一系列上卷积和非线性函数对编码器生成的特征进行采样，直到样本达到目标大小。经过上述操作之后，最终得到的图像即为上下文编码器修补完成的图像。

其中修正线性单元函数的函数式如下：

f(x)＝max(x,0) (1)

X为来自上一层神经网络的输入向量，使用线性整流激活函数的神经元会输出至下一层神经元或作为整个神经网络的输出，即为f(x)。

第二步，利用注意生成对抗网络(AttnGAN)的生成器完成生成图像的生成并同上下文编码器(Context-Encoder)模块生成的图像进行交叉熵计算。

本发明将生成器表示为G₀,G₁,G₂,…,G_m-1，生成器用来生成图像，每个生成器生成图像的不同部分；将注意力模型表示为F₀,F₁,F₂,…,F_m-1，所谓的注意力模型指的是从不同的单词生成到图片的不同部分；将每个注意力模型把单词转换成的向量表示为h₀,h₁,h₂,…,h_m-1；将每个中间状态生成得到的图片表示为

最终，多个生成器将多个单词转换成的向量生成图片的不同部分。则有以下的公式来表示这些元素之间的关系：

这些公式中值得注意的是

的生成，在这个公式中z是一个噪音向量，

则是整个句子/整段话的词向量，而F^ca则表示了这样一个函数，这个函数具有两个功能，一个是将向量/张量的维度缩小到合适范围，另一个则是引入一些随机/多样的内容。F_i ^attn是第i个注意力模型；G_i(h_i)表示第i个生成器；m表示注意生成对抗网络(AttnGAN)的生成器共有m个注意力模型F₀,F₁,F₂,…,F_m-1、m个生成器G₀,G₁,G₂,…,G_m-1、m个由单词转换成的向量h₀,h₁,h₂,…,h_m-1、m个中间状态的图片

得到的最后一个生成图像

即为利用注意生成对抗网络(AttnGAN)的生成器生成的生成图像。

为改善上下文编码器算法在缺失区域极大的时候修复效果不佳的情况，本发明通过后文第三步中提到的Inception-v3网络后面增加一层感知机将利用上下文编码器生成的图像特征转换到词向量维度，即

利用

替换公式2中的噪声向量Z，以引入语义来辅助该种缺失区域极大的图像修复任务，以求达到更好的修复效果，因此

的产生可以变化为：·

其中

为替代完成后的词向量，F_CNN为卷积神经网络操作，f_{corpped—image}是待转换的上下文编码器生成的图像，式5表示将图像特征转换到词向量维度的过程。

利用上下文编码器(Context-Encoder)和注意生成对抗网络(AttnGAN)完成生成图像生成以后，将直接计算二者之间的交叉熵损失。

其中L_{cross-entropy}表示上下文编码器(Context-Encoder)和注意生成对抗网络(AttnGAN)生成图像之间的损失，p_i与

分别表示上下文编码器和注意生成对抗网络完成的两个生成图像。

第三步，利用深度注意力多模态相似模块(DAMSM)计算图片和文本之间的损失。

图片与该图片相对应的文本描述之间的损失包括两部分：单词向量与图片子区域之间的损失，以及整个句子与图片之间的损失。

利用深度注意力多模态相似模块(DAMSM)的文本编码器提取文本特征向量，该文本编码器是一个双向长短期记忆网络(LSTM，Long Short-Term Memory)，长短期记忆网络(LSTM)是自然语言处理领域经常使用的词向量提取网络。

利用深度注意力多模态相似模块(DAMSM)的图像编码器即Inception-v3网络提取图片特征向量，该模型的中间层学习不同子区域的局部特征，而接近输出层的部分学习图像的全局特征。其中上述的文本特征向量、图片特征向量即为对文本、图片进行向量化表示，利用向量代替原有文本及图片内容以将二者转化到相同空间，从而进行损失计算。

最后，利用提取出的图片特征向量与文本特征向量计算生成图像与文本之间的损失。

本发明的有益效果为：本发明提出一种基于上下文编码器(Context-Encoder)模型和注意生成对抗网络(AttnGAN)模型以引入语义损失的掩膜图像修补方法。针对传统算法存在着图片缺失区域较大时修复效果较差、缺少语义损失的缺点，利用深度注意力多模态相似模块在从掩膜图像到生成图像的上下文编码器增加语义损失，以及在文本生成图片的注意生成对抗网络(AttnGAN)中增加了来自于上下文编码器(Context-Encoders)的图像向量来代替原论文中提到的噪音向量，同时利用注意生成对抗网络(AttnGAN)生成的图像及文本对生成的真实图像的差别进行比较，能够优化从掩膜图像到生成图像的生成效果。

附图说明

图1为引入语义损失上下文编码器网络结构。

图2为原始图像。

图3为掩膜图像。

图4为仅凭文本描述生成的生成图像。

图5为用掩膜图像向量替换噪声向量生成的图像。

图6为本模型不添加语义损失仅由上下文编码器生成的生成图像。

图7为本模型最终的的生成图像。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

一种基于上下文编码器(Context-Encoder)模型和注意生成对抗网络(AttnGAN)模型以引入语义损失的掩膜图像修补方法，包括5个阶段：数据集的处理和分割、利用上下文编码器算法(Context-Encoders)的编码器—解码器结构完成从掩膜图片到生成图像的生成、利用注意生成对抗网络(AttnGAN)的生成器完成生成图像的生成并同上下文编码器(Context-Encoder)模块生成的图像进行交叉熵计算、利用深度注意力多模态相似模块(DAMSM)计算待修复图片和其对应文本之间的损失、确定总体损失函数。

1)数据集的处理和分割

在当前的开源数据集中，很少有带有文本描述的标记图像数据。本发明使用加州理工学院鸟类数据库-2011数据库，其中包含11788张图片，约有200个类别。

本发明主要涉及到上下文编码器(Context-Encoders)、注意生成对抗网络(AttnGAN)以及其结合网络，对其中各个部分数据集的划分如下：

对于上下文编码器，本发明将数据集直接划分为训练数据集和验证数据集，而对于最后用来验证性能的测试数据集，随机的从整体数据集中抽取数据并使用opencv-python工具来将其打上掩码获得对应的测试数据集。

对于注意生成对抗网络(AttnGAN)，本发明同样将数据集划分为训练集和验证集，测试集则使用自行描述的文本进行测试。

而对于最终的结合注意生成对抗网络(AttnGAN)和上下文生成器的网络，因为数据内容和注意生成对抗网络(AttnGAN)一致，所以本发明沿用了注意生成对抗网络(AttnGAN)的数据集划分策略，而验证集则还是使用取样后打掩码的数据。

2)利用上下文编码器算法(Context-Encoders)的编码器—解码器结构完成从掩膜图片到生成图像的生成

上下文编码器的总体架构是一个简单的编码器-解码器管道。编码器接收掩膜图像，并通过提取和分析掩膜图像周围的图像特征来预测图像缺失部分的特征表示。利用解码器接收编码器预测图像缺失部分的特征表示并生成图像缺失部分。

其中编码器架构是VGGNet(Visual Geometry Group Network)架构，VGGNet实际上是一种改进的卷积神经网络，它首先用于图像分类，该网络加深了卷积神经网络的深度，改进了原始卷积神经网络的性能。解码器部分由五个上层卷积层组成，它是一种结合上采样和卷积运算的方法，目标是获得更高分辨率的图像，每个卷积层都有一个修正线性单元(RELU，Rectified Linear Unit)激活函数，该函数通过一系列上卷积和非线性函数对编码器生成的特征进行采样，直到样本大致达到目标大小。

其中修正线性单元函数的函数式如下：

f(x)＝max(x,0) (8)

经过上述操作之后，最终得到的图像即为上下文编码器修补完成的图像。即从图3到图6的生成。

3)利用注意生成对抗网络(AttnGAN)的生成器完成生成图像的生成并同上下文编码器(Context-Encoder)模块生成的图像进行交叉熵计算

一般来说从文本生成图片的生成器都是直接编码整个句子的文本描述到一个向量/张量中，但是这样缺乏细粒度的单词级别的信息，在注意生成对抗网络(AttnGAN)模型中，所谓的注意力模型指的是从不同的单词中生成到图片的不同部分，因此对于多个词向量的时候也需要多个生成器和多个注意力模型，每个生成器生成图片的不同部分(或者说将注意力放在某个词向量上)，当整体网络流程执行完之后则得到最终生成的图片。本发明将生成器表示为G₀,G₁,G₂,…,G_m-1，生成器用来生成图像，每个生成器生成图像的不同部分；将注意力模型表示为F₀,F₁,F₂,…,F_m-1，所谓的注意力模型指的是从不同的单词生成到图片的不同部分；将每个注意力模型把单词转换成的向量表示为h₀,h₁,h₂,…,h_m-1；将每个中间状态生成得到的图片表示为

这些公式中值得注意的是

的生成，在这个公式中z是一个噪音向量，

则是整个句子/整段话的词向量，而F^ca则表示了这样一个函数，这个函数具有两个功能，一个是将向量/张量的维度缩小到合适范围，另一个则是引入一些随机/多样的内容。F_i ^attn是注意力模型中的第i个生成器；m表示注意生成对抗网络(AttnGAN)的生成器共有m个注意力模型F₀,F₁,F₂,…,F_m-1、m个生成器G₀,G₁,G₂,…,G_m-1、m个由单词转换成的向量h₀,h₁,h₂,…,h_m-1、m个中间状态的图片

G_i(h_i)表示第i个生成器。得到的最后一个生成图像

为改善上下文编码器算法在缺失区域极大的时候修复效果不佳的情况，本发明通过下一步骤中深度注意力多模态相似模块中的Inception-v3网络后面增加一层感知机将利用上下文编码器生成的图像特征转换到词向量维度，即

利用

的产生可以变化为：

其中

为替代完成后的向量，F_CNN为卷积神经网络操作，f_{corpped—image}是待转换的上下文编码器生成的图像，式12表示提取修复图像的特征向量以替换噪声向量。

图5为用掩膜图像向量替换噪声向量生成的图像，该生成图像保留了一定背景信息，生成的鸟的位置更接近原始图像。

分别表示上下文编码器(Context-Encoder)和注意生成对抗网络(AttnGAN)的两个生成图像。

4)利用深度注意力多模态相似模块(DAMSM)计算图片和文本之间的损失

为了确定图片和文本之间的损失，需要将文本和图片映射到相同的向量空间。图片与文本之间的损失包括两部分：单词向量与图片子区域之间的损失，以及整个句子与图片之间的损失。本发明的文本编码器是一个双向长短期记忆网络(LSTM)网络。接下来，需要将图片映射到文本编码空间。卷积神经网络(CNN)的中间层学习不同子区域的局部特征，而接近输出层的部分学习图像的全局特征。这部分网络使用在ImageNet数据集上预先培训过的Inception-v3网络。首先将输入图像缩放成299x299像素，然后提取局部特征矩阵，该特征矩阵的每一列代表了图像一个子区域的向量，而经过最后的一层Inception-v3网络的平均池化层之后，将得到一个代表整个图像整体向量Q，最后通过增加一层感知器层，将图像特征转化到文本特征的公共语义空间中。

具体计算如下：

首先，计算每个词和图像子区域的相似度矩阵，如式15所示

s＝e^Tv(15)

其中e表示文本向量，v表示图片向量，s为二者之间的损失。接下来，将相似度标准化为等式16，其中S为标准化之后的损失，S_i,j,S_k,j为单个图片与文本之间的损失。

然后，建立注意模型来计算每个单词的区域上下文向量，即图片所有区域向量和与句子第i个单词相关的图像子区域的加权和的过程，如式17、18所示。

在此，a_j是第i个词对于第j个子区域的相关性加权值，γ₁是一个决定在计算单词的区域上下文向量时对其相关子区域的特征关注程度的因素，c_i是由使用所有图像子区域表示的第i个词向量。最后，使用余弦相似度表示第i个单词和图片之间的相似度，如公式19所示，其中R表示区域图片子区域和词向量之间的相似度。

因此，图片和全文之间的分数定义为：

其中γ₂是一个决定在多大程度上放大最相关单词的参数，Q代表整个图像，D代表整个句子,L_DAMSM表示图片和文本之间的最终损失。

5)确定损失函数：

引入语义损失上下文编码器损失有三个部分，如式21所示，即上下文编码器的损失，包括生成损失和对抗损失，上下文编码器的生成结果和文本之间的损失，即深层注意多模态相似模型(DAMSM)的损失分数，以及上下文编码器的生成结果与注意生成对抗网络(AttnGAN)网络的生成结果之间的损失。需要对损失衡量网络进行训练，确定单词向量与图片向量、句子与图片之间的损失的超参数。

L＝L_img+λ₁L_DAMSM+λ₂L_{cross-entropy}(21)

其中L为模型整体损失，L_img为上下文编码器的损失，L_img＝λ₃L_rec+λ₄L_adv，L_rec为上下文编码器的生成损失，L_adv为上下文编码器的对抗损失，λ₁、λ₂、λ₃、λ₄均为参数，用来平衡各损失之间的权重。

图7为进行上述全部操作之后的本模型最终的生成图像。

结合本发明的方案，进行实验分析如下：

1)实验数据处理与分割

对于上下文编码器(Context-Encoders)，直接将数据集划分为训练数据集和验证数据集。对于用于验证性能的最终测试数据集，从整个数据集中随机选择数据，并使用opencv python工具对其进行屏蔽，以获得相应的测试数据集。对于注意生成对抗网络(AttnGAN)，本发明仍将数据集划分为训练集和验证集，同时对测试集手动添加描述。对于边优先(Edge-Connect)算法，本发明使用相同的划分方法。

2)引入语义损失上下文编码器生成结果分析

图2给出了数据集中的原始图像。相应地，图3显示了一幅大面积受损的图像，几乎没有该图像的整个鸟类实体。在这种情况下，通过文本描述(如图4所示)直接生成相应的图片进行比较。由于文本详细描述了鸟类实体，但没有描述背景样式，因此生成的图像的背景与原始图像明显不同。

对于注意生成对抗网络(AttnGAN)模型，本发明将噪声向量和缺失图片相匹配的文字向量的组合转化为卷积神经网络(CNN)得到的图片特征向量和缺失图片相匹配文字向量的组合。这样，与通过文字直接生成的原始作品相比，原始图像的一些信息仍然可以保留。本发明中仅用掩膜图像向量替换噪声向量生成的图像如图5所示。可以看到，保留了一定的背景信息。

最后是本发明的引入语义损失上下文编码器模型的结果。图6是去除语义损失的结果，图7是完整引入语义损失上下文编码器模型的结果，可以观察到生成质量有了明显提升。这是因为增加的语义损失是为了在图像中找到与文本向量最相似的部分以优化图像修复过程，所以本发明可以得到一个相对清晰的图片。最终，本发明改进的上下文编码器算法在整个验证集上表现良好。

3)模型结果分析

本发明比较了几种优秀模型的结果，并分析了它们之间的差异。

结构相似性指数(SSIM)是由美国得克萨斯大学奥斯汀分校图像和视频工作室提出的，用于检测两幅图像之间的相似度。该值的范围可以是-1到1，越接近1，其相似性越高。

表1生成结果结构相似性对比

从表1可以看出，图像修复算法(边优先算法、非深度学习、上下文编码器和本发明的引入语义损失上下文编码器)明显优于由文本生成图像算法(注意生成对抗网络(AttnGAN)、用掩膜图像向量替换噪声向量注意生成对抗网络)。本发明对原始上下文编码器的优化效果约为3％，这是由于在文本的监督下恢复了一些丢失的细节。同时，本发明可以看到，通过在注意生成对抗网络(AttnGAN)网络中引入掩码图像，注意生成对抗网络(AttnGAN)网络的结构相似性指数(SSIM)得到了改善。类似地，边缘连接算法和传统的非深度学习算法的结构相似性指数(SSIM)较低，因为在没有大面积内容的情况下很难想象中心位置的轮廓。因此，本发明可以证明本发明的语义控制上下文编码算法在一定程度上优化了原始图像的结构相似性。

Claims

1.一种引入语义损失上下文编码器的掩膜图像修补方法，其特征在于，包括以下步骤：

第一步，利用上下文编码器算法的编码器-解码器结构完成从掩膜图片到生成图像的生成；

利用编码器接收掩膜图像，并通过提取和分析掩膜图像周围的图像特征来预测图像缺失部分的特征表示，采用的编码器架构是VGGNet架构；

利用解码器接收编码器预测图像缺失部分的特征表示并生成图像缺失部分；其中解码器部分首先由五个上层卷积层组成，用于获得更高分辨率的图像，每个卷积层都有一个修正线性单元激活函数，该函数通过一系列上卷积和非线性函数对编码器生成的特征进行采样，直到样本达到目标大小，最终得到上下文编码器修补完成的图像；

第二步，利用注意生成对抗网络的生成器完成生成图像的生成，并同上下文编码器模块生成的图像进行交叉熵计算；

将m个生成器表示为G₀,G₁,G₂,…,G_m-1，生成器用来生成图像，每个生成器用于生成图像的不同部分；将m个注意力模型表示为F₀,F₁,F₂,…,F_m-1，注意力模型指的是从不同的单词生成到图片的不同部分；将每个注意力模型把单词转换成的m个向量表示为h₀,h₁,h₂,…,h_m-1；并将每个中间状态生成得到的图片表示为

最终，多个生成器将多个单词转换成的向量生成图片的不同部分；通过下述公式表示上述元素之间的关系：

其中，z是一个噪音向量；

则是整个句子/整段话的词向量；F^ca表示的函数具有两个功能，一个是将向量/张量的维度缩小到合适范围，另一个则是引入一些随机/多样的内容；F_i ^attn是注意力模型中的第i个生成器；G_i(i)表示第i个生成器；

最终得到的最后一个生成图像

即为利用注意生成对抗网络(AttnGAN)的生成器生成的生成图像；

通过在Inception-v3网络后面增加一层感知机，将利用上下文编码器生成的图像特征转换到词向量维度，即

利用

替换公式(2)中的噪声向量Z，以引入语义来辅助该种缺失区域极大的图像修复任务，因此

的产生可以变化为：

其中，

为替代完成后的词向量，F_CNN为卷积神经网络操作，f_{corpped—image}是待转换的上下文编码器生成的图像，式(5)表示将图像特征转换到词向量维度的过程；

利用上下文编码器和注意生成对抗网络完成生成图像生成以后，将直接计算二者之间的交叉熵损失；

其中，L_{cross-entropy}表示上下文编码器和注意生成对抗网络生成图像之间的损失，p_i与

分别表示上下文编码器和注意生成对抗网络完成的两个生成图像；

第三步，利用注意生成对抗网络的生成器完成生成图像的生成并同上下文编码器模块生成的图像进行交叉熵计算；

图片与该图片相对应的文本描述之间的损失包括两部分：单词向量与图片子区域之间的损失，以及整个句子与图片之间的损失；

利用深度注意力多模态相似模型的文本编码器提取文本特征向量；

利用深度注意力多模态相似模型的图像编码器即Inception-v3网络提取图片特征向量，该模型的中间层学习不同子区域的局部特征，而接近输出层的部分学习图像的全局特征；其中所述文本特征向量、图片特征向量为对文本、图片进行向量化表示，利用向量代替原有文本及图片内容以将二者转化到相同空间，从而进行损失计算；

利用提取出的图片特征向量与文本特征向量计算生成图像与文本之间的损失。

2.根据权利要求1所述的一种引入语义损失上下文编码器的掩膜图像修补方法，其特征在于，所述修正线性单元激活函数的函数式如下：

f(x)＝max(x,0) (1)

其中，X为来自上一层神经网络的输入向量，使用线性整流激活函数的神经元会输出至下一层神经元或作为整个神经网络的输出，即为f(x)。

3.根据权利要求1或2所述的一种引入语义损失上下文编码器的掩膜图像修补方法，其特征在于，所述第三步中的文本编码器是一个双向长短期记忆网络。