CN111861945A - 一种文本引导的图像修复方法和系统 - Google Patents
一种文本引导的图像修复方法和系统 Download PDFInfo
- Publication number
- CN111861945A CN111861945A CN202010993094.2A CN202010993094A CN111861945A CN 111861945 A CN111861945 A CN 111861945A CN 202010993094 A CN202010993094 A CN 202010993094A CN 111861945 A CN111861945 A CN 111861945A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- module
- restoration
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008439 repair process Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000000007 visual effect Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000001276 controlling effect Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000010187 selection method Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种文本引导的图像修复技术方法和系统,属于计算机视觉的图像修复领域。主要包括如下步骤:1)针对于一组图像、引导文本训练集,通过一个由粗到精的图像修复模块,学习图像信息与文本信息的联合表征并生成合理的修复图像。2)对于图像修复模块生成的图像,通过一个文本重构模块,学习修复图像与引导文本间的语义相关性,推测引导文本的蒙版部分。本发明采用引导文本指导模型生成语义一致,视觉连贯且可控的图像,采用一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像,采用一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,提高视觉文本一致性。
Description
技术领域
本发明涉及图像修复领域,尤其涉及一种文本引导的图像修复方法和系统。
背景技术
图像修复是计算机视觉领域中一个基础而重要的主题,其旨在补全一个部分蒙版图像的缺失区域并输出合理图像。大多数现有的图像补全方法都是通过扩展或者借用周围区域中的信息来补全缺失区域,这些方法在缺失区域与其周围区域相似时可以起到很好的效果。然而,如果周围区域中没有足够的相关信息可以利用,则这些方法生成的图像将不尽如人意。
近年来,许多利用人为引导辅助图像修复的技术不断被提出,然而它们大多是采用基于结构的方式,例如人为添加边界线,划定参考区域及指定扩展方向等,而非基于内容的方式。这些方法在待修复区域结构不清晰的条件下具备一定的提高图像修复的能力,但是它们只能影响待修复区域的轮廓形状、大小等结构特征,而无法影响待修复区域的颜色等内容特征,其得益于结构引导又受限于结构引导,往往只能生成单一的图像,缺乏多样性。
综上,现有图像修复技术还不能有效地控制图像修复结果,在提高图像修复的准确性以及多样性方面具备一定的局限性。
发明内容
本发明的目的在于解决现有技术中的图像修复多样性不足问题,将文本引导的技术引入图像修复领域,提出了一种文本引导的图像修复方法和系统,采用文本描述指导模型生成语义一致,视觉连贯且可控的图像,提出了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像,采用一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,提高视觉文本一致性。
为了实现上述目的,本发明具体采用如下技术方案:
一种文本引导的图像修复方法,包括如下步骤:
1)获取源图像及引导文本,将源图像预处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
2)建立由修复模块和重构模块组成的神经网络模型;
修复模块将待修复图像序列及引导文本特征序列作为输入,编码图像与文本特征,并解码得到待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;
重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入,生成预测引导文本;
3)将修复模块作为生成对抗网络的生成器,构建一个判别器对生成的修复图像序列进行判别,输出判别结果;
4)根据生成对抗网络的判别结果、修复模块生成的图像修复序列以及重构模块生成的预测引导文本,计算判别器和神经网络模型的多任务损失函数并更新网络参数,得到训练好的网络模型;
5)根据训练好的网络模型的修复模块,将要修复的图像与对应的引导文本特征序列作为修复模块的输入,采用自回归的方式逐步生成最终的修复图像。
本发明的另一目的在于提供一种文本引导的图像修复系统,用于实现上述的修复方法,包括:
数据获取模块:用于获取源图像及引导文本;
数据预处理模块:用于将源图像处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
修复模块:用于根据待修复图像序列及引导文本特征序列,生成修复图像序列;
重构模块:用于将引导文本进行随机蒙板,获得随机蒙板的引导文本特征序列,并结合修复模块输出的修复图像序列,生成预测引导文本;
判别模块:用于对修复模块输出的修复图像序列进行判别,输出判别结果;
训练模块:用于根据多任务损失函数对修复模块、重构模块和判别模块进行训练,训练结束后保存模型参数文件;
修复任务执行模块:当接收到图像修复信号时,读取数据预处理模块生成的待修复图像序列和引导文本特征序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待修复图像序列和引导文本特征序列作为模型输入,生成修复图像并保存。
相对于传统方法,本发明有效提升了图像修复的准确性以及多样性,具体体现在:
(1)本发明将文本引导技术引入到图像修复领域,设计了一种由修复模块和重构模块组成的神经网络模型,修复模块将待修复图像序列及引导文本特征序列作为输入,编码图像与文本特征,并解码得到待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入,生成预测引导文本。
在训练阶段,采用文本-图像-文本的训练方法,通过文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,以生成语义一致、视觉连贯、多样可控的修复图像。
(2)针对一步修复图像过于困难的问题,本发明设计了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像。具体的,利用n个并行独立的Unet编码-解码网络,在训练阶段时,将图像预处理为待修复图像序列并进行n步的编码-解码处理,并在待修复图像序列的特征图中添加未来掩码,当Unet解码器生成第i幅修复图像时无法获取第i幅之后的待修复图像信息。在实际修复阶段,以待修复图像作为第一个Unet编码器的输入,并将第一个Unet解码器的输出作为下一个Unet编码器的输入,如此循环,逐步完成图像的修复。
(3)本发明还设计了一种生成对抗网络,将修复模块作为生成器,构建一个判别器对生成的修复图像序列进行判别,强迫修复模块生成合理的、高质量的、和文本一致的修复图像,有效地提升了修复模块的性能。
附图说明
图1是本发明所使用的文本引导的图像修复方法的整体示意图。
图2是本发明所使用的视觉/文本编码器的结构示意图。
图3是本发明所使用的视觉/文本解码器的结构示意图。
图4是本实施例的修复效果图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明用文本引导图像修复,包括如下步骤:
步骤一、对于输入的源图像及引导文本,生成待修复图像序列,通过一个修复模块,学习出待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;
步骤二、对于生成的修复图像序列,使用生成对抗网络进行判别;同时采用一个重构模块,学习修复图像序列与蒙版文本的跨模态联合表征,最终输出预测引导文本;
步骤三、对于要修复的图像和与预测引导文本,根据生成的最终网络模型,得到逐步修复的图像。
在本发明的一项具体实施中,步骤一的实施过程如下:
1.1)获取一张未蒙版的源图像,生成待修复图像序列。
所述的待修复图像序列生成步骤为:在尺寸为128×128的原图像I中心添加一个
64×64大小掩码M,得到被蒙版的图像,接着在源图像上添加一个模糊度递
减的方框模糊滤波器,得到余下的待修复图像,组合得到待修复图像序列,n为待修复图像的个数。
1.2)修复模块接受待修复图像序列及引导文本作为输入,编码其图像与文本特征,并解码得到跨模态联合表征,最终输出修复图像序列。
具体地,对于引导文本,为引导文本中的第i个单词,n为引导文本中单词
的个数;先使用预训练的word2vec嵌入提取文本特征,其公式为:,是
引导文本中的第i个单词的语义特征;结果再经由文本编码器进行特征编码,得到编码后的
文本特征。
将UNet编码网络生成的n个待修复图像特征复制到对应解码网络
当中,并采用解码网络对进行解码,得到修复后的图像序列,其公式为:,为第i步修复后的图像,对应于第i个待修复图像以及第i个UNet网络,即
为最终修复图像。
上述过程中,为了并行化由粗到精的图像修复过程,本发明在待修复图像特征
上添加了未来掩码,使得在生成时无法获取的信息;因Transfomer网络不考虑时
序信息,故本发明在生成修复图像特征以及引导文本之后,分别对其进行位置嵌入以
储存其时序信息。
上述过程中,所使用的文本编码器与视觉解码器结构基于Transformer,如图2和图3所示。具体的,视觉/文本编码器由N个编码子块堆叠构成,每一个编码子块包括一个多头注意力层和一个前馈层,其中多头注意力层和前馈层后面均连接一个残差连接与归一化层。视觉/文本解码器包括两个多头注意力层和一个前馈层,其中多头注意力层和前馈层后面均连接一个残差连接与归一化层,第一多头注意力层的输入为解码器的输入,第二多头注意力层的输入为解码器的输入与第一多头注意力层的输出。
所使用的UNet网络为带有残差连接的对称7层向下编码结构和7层向上解码结构的网络,其使用最后一个编码层的特征图与编码后的文本特征进行交互,其编码网络和解码网络均使用ReLu-Convolution-BatchNorm形式的模块。
在本发明的一项具体实施中,步骤二的实施过程如下:
2.1)将修复模块作为生成对抗网络的生成器,构建一个判别器对生成的修复图像进行判别。
具体地,由于本发明采用由粗到精的逐步生成方法,故所述生成对抗网络应用于
每一步生成以提高生成器(修复模块)的生成能力;其n个判别器基于n个UNet编
码网络,其结构与JCU判别器相同,包括条件判别与无条件判别两个部分;本发明使用无条
件判别部分帮助模型判别生成图像的真实性以提高图像质量,使用条件判别部分帮助模型
判别生成图像与引导文本的匹配性以提高视觉文本一致性,其训练过程可视作一个两玩家
min-max游戏,其目标函数为:
其中, D(x)、D(y)为JCU判别器无条件判别结果,D(x,c)、D(y,c)为条件判别结果,G(x)
为生成器,是服从p input 分布的待修复图像序列x的判别结果的期望,与判别得分正
相关;是服从G(x)分布的修复图像序列y的判别结果期望,与判别得分负相关;min G
是生成器最小化,最大化的选择过程,max D 是判别器最大化,最小化的选择过程,整体过程是一个两玩家min-max对抗过程,旨在生成尽可能与待修复图
像序列x相似的修复图像序列y;c为编码后的文本特征经过平均池化操作得到的聚合文本
特征。
2.2)重构模块接受修复图像序列作为输入,输出对于经随机蒙版的引导文本的预测结果。
在本实施例中,所述重构模块中用于提取修复图像特征 的n个UNet编码器复用
修复模块的后n-1个UNet编码器,具体为:使用修复模块的UNet编码器 对应提取修
复图像 的图像特征,并新添加一个仅用于重构模块的UNet编码器 提取修复图
像的图像特征。
2.3)使用多任务学习策略根据生成对抗网络结果,图像修复结果以及文本重构结果计算多任务损失函数并更新网络参数,得到最终的网络模型;
其中,当i=n时, 表示原始图像I,W为权重矩阵,其对于未蒙版区域取0,对于蒙版
区域取 ,d为该蒙版点与最近的未蒙版点之间的距离, 在本发明中取固定值0.99;
为修复图像序列中第i个图像的L1损失;为按元素乘积符号, 为1-范数,计算两图像
间对应像素点的各通道误差的绝对值之和。
在修复模块生成修复图像序列之后,使用生成对抗网络的判别器(UNet网络的7层
向下解码结构)对生成的修复图像序列进行判别,计算对抗损失;对抗损失旨在使得生成的 尽可能地与 相似,同时缓解L1损失带来的生成图像模糊的问题,以提高修复模块的
修复能力;对抗损失包括判别器损失与生成器损失两部分,每部分又包含条
件损失与无条件损失两部分,其损失函数具体为:
在获取上述所有损失函数之后,将其结合并计算多任务损失函数,以端到端的方式训练整个神经网络;其中,用于训练判别器的损失具体为:
用于训练生成器的损失具体为:
在本发明的一个具体实施中,提出了一种文本引导的图像修复系统,并给出了下述介绍。
数据获取模块:用于获取源图像及引导文本;
数据预处理模块:用于将源图像处理为待修复图像序列,将引导文本预处理为引导文本特征序列;在本实施例中,使用一个模糊度递减的方框模糊滤波器生成待修复图像序列。
修复模块:用于根据待修复图像序列及引导文本特征序列,生成修复图像序列;
重构模块:用于将引导文本进行随机蒙板,获得随机蒙板的引导文本特征序列,并结合修复模块输出的修复图像序列,生成预测引导文本;
判别模块:用于对修复模块输出的修复图像序列进行判别,输出判别结果;
训练模块:用于根据多任务损失函数对修复模块、重构模块和判别模块进行训练,训练结束后保存模型参数文件;
修复任务执行模块:当接收到图像修复信号时,读取数据预处理模块生成的待修复图像序列和引导文本特征序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待修复图像序列和引导文本特征序列作为模型输入,生成修复图像并保存。
其中,所述的训练模块采用多任务损失函数,包括:
所述多任务损失涉及如下子损失:
L1损失 , ,其中,为原始图像I,W为权重矩阵,其对
于未蒙版区域取0,对于蒙版区域取,d为该蒙版点与最近的未蒙版点之间的距离, 在本
发明中取固定值0.99;该损失惩罚每一步生成过程的像素级误差。
重构损失,其中 为所有蒙版位置的集合, 为蒙版
点i处的能量分布,为引导文本第i处的真实词,本误差为每个蒙版单词计算负对数似然值
并借此训练重构模块,提升其从视觉情境中提取重要信息并正确预测蒙版词的能力。
其中,所述的修复模块包括:
Unet编码-解码模块:由n个Unet编码器、n个Unet解码器构成,由n个UNet编码器提
取待修复图像序列的特征图;将UNet编码器生成的特征图复制到对应的Unet解码器中,并
采用Unet解码器对跨模态联合表征 进行解码,得到修复图像序列。
其中,所述的重构模块包括:
Unet编码模块:包括n个并行独立的Unet编码器,由n个UNet编码器提取修复图像序列的修复特征图,其中使用修复模块的UNet编码网络中的后n-1个UNet编码器提取修复图像序列中前n-1个修复图像的修复特征图,并新添加一个仅用于重构模块的UNet编码器来提取修复图像序列中第n个修复图像的修复特征图。
第二编码-解码模块:由视觉编码器、文本解码器构成,由视觉编码器对修复特征
图进行编码,获得编码后的修复特征图;由文本解码器对随机蒙板的引导文本特征序列与
编码后的修复特征图进行解码,得到跨模态联合表征,并通过全连接层计算随机蒙板的
引导文本中的每个蒙版位置在词汇表上的能量分布,生成预测引导文本。
在本申请所提供的具体实施方式中,应该理解到,以上所描述的系统实施例仅仅是示意性的,例如所述修复模块和重构模块,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接,可以是电性或其它的形式。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在CUB-200-2011及Oxford-102两大数据集上进行实验验证,其中, CUB-200-2011数据集包含11788张图像,其中包含200种不同类别的鸟类;而Oxford-102数据集包含8189张图像,其中包含102种不同类别的花。
本发明将它们随机分为不相交的训练和测试数据集,并为每个图像随机选择3个
标题作为文本输入;对于输入的图像先进行缩放,使之高和宽中的较小值为128,并在中心
裁剪出128×128的大小的图像作为源图像,生成长度为4的待修复图像序列,中心掩码尺
寸为64×64,模糊半径依次为4,2,1;对于输入的文本,使用NLTK进行分词,并使用
cased-300d版本的预训练word2vec Glove进行特征提取。
在对比对象方面,由于此前没有类似的研究,故而对AttnGAN 和TAGAN的模型结构和参数进行调整以使其适应文本引导的图像修复任务;具体来说,对于AttnGAN,使用预训练的模型提取输入蒙版图像的特征,并将其与注意力生成网络的原始输入连接起来;对于TAGAN,本发明将输入蒙版图像而非整个源图像,仅保留L1损失及GAN损失以训练模型;此外,引入传统的图像修复模型Contextual Attention作为另一个基准,该模型仅将蒙版图像作为输入并直接进行修复。
在测试评价标准方面,本发明遵循图像修复惯例,采用三种常见的定量评估指标,即峰信噪比(PSNR),总变化损耗(TV)和结构相似度(SSIM)来评估生成结果。
表1和表2是本发明在CUB-200-2011数据集、Oxford-102数据集上的实验结果,其中↑代表越高越好,↓代表越低越好。
表1 CUB-200-2011数据集上的实验结果
表2 本发明在Oxford-102数据集上的实验结果
针对传统方法鲜有利用基于内容的人为引导的问题,本发明设计了一种利用文本描述指导模型修复图像的技术,并采用文本-图像-文本的训练方法,设计了一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,以生成语义一致、视觉连贯、多样可控的修复图像。
针对一步修复图像过于困难的问题,本发明设计了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像。
本发明还设计了一种生成对抗网络,将修复模块作为生成器,强迫修复模块生成合理的、高质量的、和文本一致的修复图像,有效地提升了修复模块的性能。
从表1和表2可以看出,本发明对鸟类图像和花类图像的修复效果,在三个经典评价标准上都已超过了传统方法,实现了修复准确率上的提高。
此外,如图4所示,本发明还实现了可控的多样性图像修复,本发明能够通过修改文本中对应的颜色单词,生成各种颜色的鸟类图像与花类图像,而这也是结构引导的图像修复方法无法实现的。除了修改颜色词之外,还可以任意修改其他的词,可以从图4中看出,每一行相对应的四个修复结果均存在差异,即可以通过引导文本的内容对修复的图像进行控制,实现可控的多样性图像修复效果。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (10)
1.一种文本引导的图像修复方法,其特征在于,包括以下步骤:
1)获取源图像及引导文本,将源图像预处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
2)建立由修复模块和重构模块组成的神经网络模型;
修复模块将待修复图像序列及引导文本特征序列作为输入,编码图像与文本特征,并解码得到待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;
重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入,生成预测引导文本;
3)将修复模块作为生成对抗网络的生成器,构建一个判别器对生成的修复图像序列进行判别,输出判别结果;
4)根据生成对抗网络的判别结果、修复模块生成的图像修复序列以及重构模块生成的预测引导文本,计算判别器和神经网络模型的多任务损失函数并更新网络参数,得到训练好的网络模型;
5)根据训练好的网络模型的修复模块,将要修复的图像与对应的引导文本特征序列作为修复模块的输入,采用自回归的方式逐步生成最终的修复图像。
2.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,所述的修复模块包括第一编码-解码网络,以及n个并行独立的Unet编码-解码网络,所述的第一编码-解码网络由文本编码器、视觉解码器构成,Unet编码-解码网络由n个Unet编码器、n个Unet解码器构成;
由文本编码器对引导文本特征序列进行编码,获得编码后的文本特征;
由n个UNet编码器提取待修复图像序列的特征图;
由视觉解码器对编码后的文本特征与特征图进行解码,得到跨模态联合表征f c ;
将UNet编码器生成的特征图复制到对应的Unet解码器中,并采用Unet解码器对跨模态联合表征f c 进行解码,得到修复图像序列。
3.根据权利要求2所述的一种文本引导的图像修复方法,其特征在于,在待修复图像序列的特征图中添加未来掩码,当Unet解码器生成第i幅修复图像时无法获取第i幅之后的待修复图像信息。
4.根据权利要求2所述的一种文本引导的图像修复方法,其特征在于,所述重构网络包括第二编码-解码网络,以及n个并行独立的Unet编码器,所述的第二编码-解码网络由视觉编码器、文本解码器构成;
对引导文本进行随机蒙板处理;
由n个UNet编码器提取修复图像序列的修复特征图,其中使用修复模块的UNet编码网络中的后n-1个UNet编码器提取修复图像序列中前n-1个修复图像的修复特征图,并新添加一个仅用于重构模块的UNet编码器来提取修复图像序列中第n个修复图像的修复特征图;
由视觉编码器对修复特征图进行编码,获得编码后的修复特征图;
由文本解码器对随机蒙板的引导文本特征序列与编码后的修复特征图进行解码,得到跨模态联合表征f p ,并通过全连接层计算随机蒙板的引导文本中的每个蒙版位置在词汇表上的能量分布,生成预测引导文本。
5.根据权利要求4所述的一种文本引导的图像修复方法,其特征在于,所述的第一编码-解码网络和第二编码-解码网络采用基于Transformer模型的编码器与解码器,且视觉编码器与视觉解码器共享参数,文本编码器与文本解码器共享参数;所述的UNet编码器和Unet解码器均由激活函数层-卷积层-BatchNorm层构成的模块组成。
6.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,所述的UNet编码-解码网络使用带有残差连接的对称7层向下编码结构和7层向上解码结构,并使用最后一个编码层的特征图与编码后的文本特征进行交互。
7.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,使用一个模糊度递减的方框模糊滤波器生成待修复图像序列。
8.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,步骤3)具体为:
构建生成对抗网络,以修复模块作为生成对抗网络的生成器,基于UNet编码网络构建JCU判别器作为生成对抗网络的判别器,所述判别器由条件判别器与无条件判别器构成;
由判别器对生成的修复图像序列进行判别,输出判别结果;判别器的目标函数为: \
10.一种文本引导的图像修复系统,其特征在于,用于实现权利要求1所述的图像修复方法,所述图像修复系统包括:
数据获取模块:用于获取源图像及引导文本;
数据预处理模块:用于将源图像处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
修复模块:用于根据待修复图像序列及引导文本特征序列,生成修复图像序列;
重构模块:用于将引导文本进行随机蒙板,获得随机蒙板的引导文本特征序列,并结合修复模块输出的修复图像序列,生成预测引导文本;
判别模块:用于对修复模块输出的修复图像序列进行判别,输出判别结果;
训练模块:用于根据多任务损失函数对修复模块、重构模块和判别模块进行训练,训练结束后保存模型参数文件;
修复任务执行模块:当接收到图像修复信号时,读取数据预处理模块生成的待修复图像序列和引导文本特征序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待修复图像序列和引导文本特征序列作为模型输入,生成修复图像并保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010993094.2A CN111861945B (zh) | 2020-09-21 | 2020-09-21 | 一种文本引导的图像修复方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010993094.2A CN111861945B (zh) | 2020-09-21 | 2020-09-21 | 一种文本引导的图像修复方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111861945A true CN111861945A (zh) | 2020-10-30 |
CN111861945B CN111861945B (zh) | 2020-12-18 |
Family
ID=72968459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010993094.2A Active CN111861945B (zh) | 2020-09-21 | 2020-09-21 | 一种文本引导的图像修复方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111861945B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613577A (zh) * | 2020-12-31 | 2021-04-06 | 上海商汤智能科技有限公司 | 神经网络的训练方法、装置、计算机设备及存储介质 |
CN113239844A (zh) * | 2021-05-26 | 2021-08-10 | 哈尔滨理工大学 | 一种基于多头注意力目标检测的智能化妆镜系统 |
CN113836354A (zh) * | 2021-02-08 | 2021-12-24 | 宏龙科技(杭州)有限公司 | 一种跨模态视觉与文本信息匹配方法和装置 |
CN114283080A (zh) * | 2021-12-15 | 2022-04-05 | 复旦大学 | 一种多模态特征融合的文本指导图像压缩噪声去除方法 |
CN114418863A (zh) * | 2022-03-31 | 2022-04-29 | 北京小蝇科技有限责任公司 | 细胞图像修复方法、装置、计算机存储介质及电子设备 |
CN116523799A (zh) * | 2023-07-03 | 2023-08-01 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
CN116580411A (zh) * | 2023-07-11 | 2023-08-11 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于指令的文档图像处理方法及系统 |
WO2023179291A1 (zh) * | 2022-03-21 | 2023-09-28 | 北京有竹居网络技术有限公司 | 图像修复方法、装置、设备、介质及产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269245A (zh) * | 2018-01-26 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种基于新型生成对抗网络的眼部图像修复方法 |
CN109559287A (zh) * | 2018-11-20 | 2019-04-02 | 北京工业大学 | 一种基于DenseNet生成对抗网络的语义图像修复方法 |
CN109903236A (zh) * | 2019-01-21 | 2019-06-18 | 南京邮电大学 | 基于vae-gan与相似块搜索的人脸图像修复方法及装置 |
WO2020038207A1 (en) * | 2018-08-21 | 2020-02-27 | Huawei Technologies Co., Ltd. | Binarization and normalization-based inpainting for removing text |
CN111340122A (zh) * | 2020-02-29 | 2020-06-26 | 复旦大学 | 一种多模态特征融合的文本引导图像修复方法 |
-
2020
- 2020-09-21 CN CN202010993094.2A patent/CN111861945B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269245A (zh) * | 2018-01-26 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种基于新型生成对抗网络的眼部图像修复方法 |
WO2020038207A1 (en) * | 2018-08-21 | 2020-02-27 | Huawei Technologies Co., Ltd. | Binarization and normalization-based inpainting for removing text |
CN109559287A (zh) * | 2018-11-20 | 2019-04-02 | 北京工业大学 | 一种基于DenseNet生成对抗网络的语义图像修复方法 |
CN109903236A (zh) * | 2019-01-21 | 2019-06-18 | 南京邮电大学 | 基于vae-gan与相似块搜索的人脸图像修复方法及装置 |
CN111340122A (zh) * | 2020-02-29 | 2020-06-26 | 复旦大学 | 一种多模态特征融合的文本引导图像修复方法 |
Non-Patent Citations (1)
Title |
---|
BOWEN LI 等: "Controllable Text-to-Image Generation", 《33RD CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2019)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613577A (zh) * | 2020-12-31 | 2021-04-06 | 上海商汤智能科技有限公司 | 神经网络的训练方法、装置、计算机设备及存储介质 |
CN112613577B (zh) * | 2020-12-31 | 2024-06-11 | 上海商汤智能科技有限公司 | 神经网络的训练方法、装置、计算机设备及存储介质 |
CN113836354A (zh) * | 2021-02-08 | 2021-12-24 | 宏龙科技(杭州)有限公司 | 一种跨模态视觉与文本信息匹配方法和装置 |
CN113239844B (zh) * | 2021-05-26 | 2022-11-01 | 哈尔滨理工大学 | 一种基于多头注意力目标检测的智能化妆镜系统 |
CN113239844A (zh) * | 2021-05-26 | 2021-08-10 | 哈尔滨理工大学 | 一种基于多头注意力目标检测的智能化妆镜系统 |
CN114283080A (zh) * | 2021-12-15 | 2022-04-05 | 复旦大学 | 一种多模态特征融合的文本指导图像压缩噪声去除方法 |
WO2023179291A1 (zh) * | 2022-03-21 | 2023-09-28 | 北京有竹居网络技术有限公司 | 图像修复方法、装置、设备、介质及产品 |
CN114418863B (zh) * | 2022-03-31 | 2022-06-07 | 北京小蝇科技有限责任公司 | 细胞图像修复方法、装置、计算机存储介质及电子设备 |
CN114418863A (zh) * | 2022-03-31 | 2022-04-29 | 北京小蝇科技有限责任公司 | 细胞图像修复方法、装置、计算机存储介质及电子设备 |
CN116523799A (zh) * | 2023-07-03 | 2023-08-01 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
CN116523799B (zh) * | 2023-07-03 | 2023-09-19 | 贵州大学 | 基于多粒度图文语义学习的文本引导图像修复模型及方法 |
CN116580411A (zh) * | 2023-07-11 | 2023-08-11 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于指令的文档图像处理方法及系统 |
CN116580411B (zh) * | 2023-07-11 | 2023-10-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于指令的文档图像处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111861945B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
Guo et al. | Auto-embedding generative adversarial networks for high resolution image synthesis | |
CN109919830B (zh) | 一种基于美学评价的带参考人眼图像修复方法 | |
CN109685724B (zh) | 一种基于深度学习的对称感知人脸图像补全方法 | |
CN111652049A (zh) | 人脸图像处理模型训练方法、装置、电子设备及存储介质 | |
CN112686817B (zh) | 一种基于不确定性估计的图像补全方法 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
CN112184582B (zh) | 一种基于注意力机制的图像补全方法及装置 | |
CN113343705A (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN112819689B (zh) | 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备 | |
CN114757864B (zh) | 一种基于多尺度特征解耦的多层级细粒度图像生成方法 | |
CN113160032A (zh) | 一种基于生成对抗网络的无监督多模态图像转换方法 | |
CN117151990B (zh) | 一种基于自注意力编码解码的图像去雾方法 | |
CN112017255A (zh) | 一种根据食谱生成食物图像的方法 | |
CN113140020A (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN110516724A (zh) | 可视化作战场景的高性能多层字典学习特征图像处理方法 | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN116012255A (zh) | 一种基于循环一致性生成对抗网络的低光图像增强方法 | |
CN114372926A (zh) | 一种基于图像修复与卷积神经网络的中医舌质老嫩识别方法 | |
CN117876793A (zh) | 一种高光谱影像树种分类方法及装置 | |
CN114494387A (zh) | 一种生成数据集网络模型及雾图生成方法 | |
CN117522674A (zh) | 一种联合局部和全局信息的图像重建系统及方法 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
Teng et al. | Unimodal face classification with multimodal training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |