CN111861945A - 一种文本引导的图像修复方法和系统 - Google Patents

一种文本引导的图像修复方法和系统 Download PDF

Info

Publication number
CN111861945A
CN111861945A CN202010993094.2A CN202010993094A CN111861945A CN 111861945 A CN111861945 A CN 111861945A CN 202010993094 A CN202010993094 A CN 202010993094A CN 111861945 A CN111861945 A CN 111861945A
Authority
CN
China
Prior art keywords
image
text
module
restoration
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010993094.2A
Other languages
English (en)
Other versions
CN111861945B (zh
Inventor
赵洲
童鑫远
蔡登�
何晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010993094.2A priority Critical patent/CN111861945B/zh
Publication of CN111861945A publication Critical patent/CN111861945A/zh
Application granted granted Critical
Publication of CN111861945B publication Critical patent/CN111861945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种文本引导的图像修复技术方法和系统,属于计算机视觉的图像修复领域。主要包括如下步骤:1)针对于一组图像、引导文本训练集,通过一个由粗到精的图像修复模块,学习图像信息与文本信息的联合表征并生成合理的修复图像。2)对于图像修复模块生成的图像,通过一个文本重构模块,学习修复图像与引导文本间的语义相关性,推测引导文本的蒙版部分。本发明采用引导文本指导模型生成语义一致,视觉连贯且可控的图像,采用一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像,采用一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,提高视觉文本一致性。

Description

一种文本引导的图像修复方法和系统
技术领域
本发明涉及图像修复领域,尤其涉及一种文本引导的图像修复方法和系统。
背景技术
图像修复是计算机视觉领域中一个基础而重要的主题,其旨在补全一个部分蒙版图像的缺失区域并输出合理图像。大多数现有的图像补全方法都是通过扩展或者借用周围区域中的信息来补全缺失区域,这些方法在缺失区域与其周围区域相似时可以起到很好的效果。然而,如果周围区域中没有足够的相关信息可以利用,则这些方法生成的图像将不尽如人意。
近年来,许多利用人为引导辅助图像修复的技术不断被提出,然而它们大多是采用基于结构的方式,例如人为添加边界线,划定参考区域及指定扩展方向等,而非基于内容的方式。这些方法在待修复区域结构不清晰的条件下具备一定的提高图像修复的能力,但是它们只能影响待修复区域的轮廓形状、大小等结构特征,而无法影响待修复区域的颜色等内容特征,其得益于结构引导又受限于结构引导,往往只能生成单一的图像,缺乏多样性。
综上,现有图像修复技术还不能有效地控制图像修复结果,在提高图像修复的准确性以及多样性方面具备一定的局限性。
发明内容
本发明的目的在于解决现有技术中的图像修复多样性不足问题,将文本引导的技术引入图像修复领域,提出了一种文本引导的图像修复方法和系统,采用文本描述指导模型生成语义一致,视觉连贯且可控的图像,提出了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像,采用一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,提高视觉文本一致性。
为了实现上述目的,本发明具体采用如下技术方案:
一种文本引导的图像修复方法,包括如下步骤:
1)获取源图像及引导文本,将源图像预处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
2)建立由修复模块和重构模块组成的神经网络模型;
修复模块将待修复图像序列及引导文本特征序列作为输入,编码图像与文本特征,并解码得到待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;
重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入,生成预测引导文本;
3)将修复模块作为生成对抗网络的生成器,构建一个判别器对生成的修复图像序列进行判别,输出判别结果;
4)根据生成对抗网络的判别结果、修复模块生成的图像修复序列以及重构模块生成的预测引导文本,计算判别器和神经网络模型的多任务损失函数并更新网络参数,得到训练好的网络模型;
5)根据训练好的网络模型的修复模块,将要修复的图像与对应的引导文本特征序列作为修复模块的输入,采用自回归的方式逐步生成最终的修复图像。
本发明的另一目的在于提供一种文本引导的图像修复系统,用于实现上述的修复方法,包括:
数据获取模块:用于获取源图像及引导文本;
数据预处理模块:用于将源图像处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
修复模块:用于根据待修复图像序列及引导文本特征序列,生成修复图像序列;
重构模块:用于将引导文本进行随机蒙板,获得随机蒙板的引导文本特征序列,并结合修复模块输出的修复图像序列,生成预测引导文本;
判别模块:用于对修复模块输出的修复图像序列进行判别,输出判别结果;
训练模块:用于根据多任务损失函数对修复模块、重构模块和判别模块进行训练,训练结束后保存模型参数文件;
修复任务执行模块:当接收到图像修复信号时,读取数据预处理模块生成的待修复图像序列和引导文本特征序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待修复图像序列和引导文本特征序列作为模型输入,生成修复图像并保存。
相对于传统方法,本发明有效提升了图像修复的准确性以及多样性,具体体现在:
(1)本发明将文本引导技术引入到图像修复领域,设计了一种由修复模块和重构模块组成的神经网络模型,修复模块将待修复图像序列及引导文本特征序列作为输入,编码图像与文本特征,并解码得到待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入,生成预测引导文本。
在训练阶段,采用文本-图像-文本的训练方法,通过文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,以生成语义一致、视觉连贯、多样可控的修复图像。
(2)针对一步修复图像过于困难的问题,本发明设计了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像。具体的,利用n个并行独立的Unet编码-解码网络,在训练阶段时,将图像预处理为待修复图像序列并进行n步的编码-解码处理,并在待修复图像序列的特征图中添加未来掩码,当Unet解码器生成第i幅修复图像时无法获取第i幅之后的待修复图像信息。在实际修复阶段,以待修复图像作为第一个Unet编码器的输入,并将第一个Unet解码器的输出作为下一个Unet编码器的输入,如此循环,逐步完成图像的修复。
(3)本发明还设计了一种生成对抗网络,将修复模块作为生成器,构建一个判别器对生成的修复图像序列进行判别,强迫修复模块生成合理的、高质量的、和文本一致的修复图像,有效地提升了修复模块的性能。
附图说明
图1是本发明所使用的文本引导的图像修复方法的整体示意图。
图2是本发明所使用的视觉/文本编码器的结构示意图。
图3是本发明所使用的视觉/文本解码器的结构示意图。
图4是本实施例的修复效果图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明用文本引导图像修复,包括如下步骤:
步骤一、对于输入的源图像及引导文本,生成待修复图像序列,通过一个修复模块,学习出待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;
步骤二、对于生成的修复图像序列,使用生成对抗网络进行判别;同时采用一个重构模块,学习修复图像序列与蒙版文本的跨模态联合表征,最终输出预测引导文本;
步骤三、对于要修复的图像和与预测引导文本,根据生成的最终网络模型,得到逐步修复的图像。
在本发明的一项具体实施中,步骤一的实施过程如下:
1.1)获取一张未蒙版的源图像,生成待修复图像序列。
所述的待修复图像序列生成步骤为:在尺寸为128×128的原图像I中心添加一个 64×64大小掩码M,得到被蒙版的图像
Figure 9457DEST_PATH_IMAGE001
,接着在源图像上添加一个模糊度递 减的方框模糊滤波器,得到余下的待修复图像
Figure 644706DEST_PATH_IMAGE002
,组合得到待修复图像序列
Figure 627706DEST_PATH_IMAGE003
,n为待修复图像的个数。
1.2)修复模块接受待修复图像序列及引导文本作为输入,编码其图像与文本特征,并解码得到跨模态联合表征,最终输出修复图像序列。
具体地,对于引导文本
Figure 491757DEST_PATH_IMAGE004
Figure 774970DEST_PATH_IMAGE005
为引导文本中的第i个单词,n为引导文本中单词 的个数;先使用预训练的word2vec嵌入提取文本特征,其公式为:
Figure 863012DEST_PATH_IMAGE006
Figure 848155DEST_PATH_IMAGE007
是 引导文本中的第i个单词的语义特征;结果再经由文本编码器进行特征编码,得到编码后的 文本特征。
建立n个彼此独立的UNet网络
Figure 250317DEST_PATH_IMAGE008
,其编码网络部分记为
Figure 388037DEST_PATH_IMAGE009
,并行提取n个 待修复图像特征,其公式为:
Figure 850243DEST_PATH_IMAGE010
Figure 870151DEST_PATH_IMAGE011
是待修复图像序列中的第i个待修复图像特 征。
将上述结果使用视觉解码器
Figure 59693DEST_PATH_IMAGE012
进行解码,得到跨模态联合表征
Figure 51920DEST_PATH_IMAGE013
,其公式为:
Figure 950606DEST_PATH_IMAGE014
将UNet编码网络
Figure 457810DEST_PATH_IMAGE009
生成的n个待修复图像特征复制到对应解码网络
Figure 201776DEST_PATH_IMAGE015
当中,并采用解码网络对
Figure 297776DEST_PATH_IMAGE013
进行解码,得到修复后的图像序列
Figure 101784DEST_PATH_IMAGE016
,其公式为:
Figure 96285DEST_PATH_IMAGE017
Figure 643941DEST_PATH_IMAGE018
为第i步修复后的图像,对应于第i个待修复图像以及第i个UNet网络,
Figure 610760DEST_PATH_IMAGE019
即 为最终修复图像。
上述过程中,为了并行化由粗到精的图像修复过程,本发明在待修复图像特征
Figure 834937DEST_PATH_IMAGE020
上添加了未来掩码,使得在生成
Figure 254417DEST_PATH_IMAGE018
时无法获取
Figure 871343DEST_PATH_IMAGE021
的信息;因Transfomer网络不考虑时 序信息,故本发明在生成修复图像特征
Figure 692669DEST_PATH_IMAGE020
以及引导文本
Figure 87747DEST_PATH_IMAGE022
之后,分别对其进行位置嵌入以 储存其时序信息。
上述过程中,所使用的文本编码器与视觉解码器结构基于Transformer,如图2和图3所示。具体的,视觉/文本编码器由N个编码子块堆叠构成,每一个编码子块包括一个多头注意力层和一个前馈层,其中多头注意力层和前馈层后面均连接一个残差连接与归一化层。视觉/文本解码器包括两个多头注意力层和一个前馈层,其中多头注意力层和前馈层后面均连接一个残差连接与归一化层,第一多头注意力层的输入为解码器的输入,第二多头注意力层的输入为解码器的输入与第一多头注意力层的输出。
所使用的UNet网络为带有残差连接的对称7层向下编码结构和7层向上解码结构的网络,其使用最后一个编码层的特征图与编码后的文本特征进行交互,其编码网络和解码网络均使用ReLu-Convolution-BatchNorm形式的模块。
在本发明的一项具体实施中,步骤二的实施过程如下:
2.1)将修复模块作为生成对抗网络的生成器,构建一个判别器对生成的修复图像进行判别。
具体地,由于本发明采用由粗到精的逐步生成方法,故所述生成对抗网络应用于 每一步生成以提高生成器(修复模块)的生成能力;其n个判别器
Figure 994523DEST_PATH_IMAGE023
基于n个UNet编 码网络,其结构与JCU判别器相同,包括条件判别与无条件判别两个部分;本发明使用无条 件判别部分帮助模型判别生成图像的真实性以提高图像质量,使用条件判别部分帮助模型 判别生成图像与引导文本的匹配性以提高视觉文本一致性,其训练过程可视作一个两玩家 min-max游戏,其目标函数为:
Figure 680719DEST_PATH_IMAGE024
其中, D(x)、D(y)为JCU判别器无条件判别结果,D(x,c)、D(y,c)为条件判别结果,G(x) 为生成器,
Figure 622130DEST_PATH_IMAGE025
是服从p input 分布的待修复图像序列x的判别结果的期望,与判别得分正 相关;
Figure 938842DEST_PATH_IMAGE026
是服从G(x)分布的修复图像序列y的判别结果期望,与判别得分负相关;min G 是生成器最小化
Figure 582182DEST_PATH_IMAGE025
,最大化
Figure 72069DEST_PATH_IMAGE026
的选择过程,max D 是判别器最大化
Figure 602408DEST_PATH_IMAGE025
,最小化
Figure 355600DEST_PATH_IMAGE026
的选择过程,整体过程是一个两玩家min-max对抗过程,旨在生成尽可能与待修复图 像序列x相似的修复图像序列y;c为编码后的文本特征经过平均池化操作得到的聚合文本 特征。
2.2)重构模块接受修复图像序列作为输入,输出对于经随机蒙版的引导文本的预测结果。
具体地,使用预训练的word2vec嵌入结构提取引导文本的蒙版文本特征
Figure 971389DEST_PATH_IMAGE027
使用n个UNet编码器提取修复图像序列的修复图像特征
Figure 717497DEST_PATH_IMAGE028
,并使用视觉编码器进行编 码,得到编码后的修复图像特征。
使用文本解码器对蒙版文本特征
Figure 164659DEST_PATH_IMAGE027
和编码后的修复图像特征进行解码,得到跨模 态语义表达
Figure 823173DEST_PATH_IMAGE029
通过全连接层计算引导文本中的每个蒙版位置在词汇表上的能量分布情况
Figure 926259DEST_PATH_IMAGE030
以预测蒙版词,得到文本重构结果(预测引导文本);其中能量分布计算公式为:
Figure 961211DEST_PATH_IMAGE031
,其中
Figure 528458DEST_PATH_IMAGE032
为位置i的能量分布,
Figure 607142DEST_PATH_IMAGE033
为词汇表的单词数目。
在本实施例中,所述重构模块中用于提取修复图像特征
Figure 463102DEST_PATH_IMAGE028
的n个UNet编码器复用 修复模块的后n-1个UNet编码器,具体为:使用修复模块的UNet编码器
Figure 36166DEST_PATH_IMAGE034
对应提取修 复图像
Figure 395603DEST_PATH_IMAGE035
的图像特征,并新添加一个仅用于重构模块的UNet编码器
Figure 458237DEST_PATH_IMAGE036
提取修复图 像
Figure 785182DEST_PATH_IMAGE037
的图像特征。
2.3)使用多任务学习策略根据生成对抗网络结果,图像修复结果以及文本重构结果计算多任务损失函数并更新网络参数,得到最终的网络模型;
具体地,在修复模块生成修复图像序列之后,将修复图像序列与待修复图像序列进行 比较,计算L1损失
Figure 161937DEST_PATH_IMAGE038
,比较像素点级的误差,其损失函数具体为:
Figure 641460DEST_PATH_IMAGE039
其中,当i=n时,
Figure 78257DEST_PATH_IMAGE040
表示原始图像I,W为权重矩阵,其对于未蒙版区域取0,对于蒙版 区域取
Figure 439968DEST_PATH_IMAGE041
,d为该蒙版点与最近的未蒙版点之间的距离,
Figure 869682DEST_PATH_IMAGE042
在本发明中取固定值0.99;
Figure 938132DEST_PATH_IMAGE043
为修复图像序列中第i个图像的L1损失;
Figure 545831DEST_PATH_IMAGE044
为按元素乘积符号,
Figure 394838DEST_PATH_IMAGE045
为1-范数,计算两图像 间对应像素点的各通道误差的绝对值之和。
在修复模块生成修复图像序列之后,在修复图像序列内部计算总变化损失
Figure 113395DEST_PATH_IMAGE046
,损失用于图像去噪以生成更平滑的图像,其损失函数具体为:
Figure 551199DEST_PATH_IMAGE047
其中u,v为该像素点的坐标,且u+1,v+1的值限定在图像坐标边界之内,
Figure 329799DEST_PATH_IMAGE048
为修复图 像序列中第i个图像的坐标点为(u,v)的像素点。
Figure 869365DEST_PATH_IMAGE049
为修复图像序列中第i个图像的TV损 失。
在修复模块生成修复图像序列之后,使用生成对抗网络的判别器(UNet网络的7层 向下解码结构)对生成的修复图像序列进行判别,计算对抗损失;对抗损失旨在使得生成的
Figure 188350DEST_PATH_IMAGE050
尽可能地与
Figure 496972DEST_PATH_IMAGE051
相似,同时缓解L1损失带来的生成图像模糊的问题,以提高修复模块的 修复能力;对抗损失包括判别器损失
Figure 430162DEST_PATH_IMAGE052
与生成器损失
Figure 191444DEST_PATH_IMAGE053
两部分,每部分又包含条 件损失与无条件损失两部分,其损失函数具体为:
Figure 314121DEST_PATH_IMAGE054
其中,
Figure 477249DEST_PATH_IMAGE055
为修复图像序列中第i个图像的判别器损失,
Figure 332073DEST_PATH_IMAGE056
为修复图像序列中第i个图像 的生成器损失,
Figure 95498DEST_PATH_IMAGE057
Figure 959549DEST_PATH_IMAGE058
为判别器的无条件判别结果,
Figure 773921DEST_PATH_IMAGE059
Figure 330805DEST_PATH_IMAGE060
为条件判别 结果,
Figure 801100DEST_PATH_IMAGE061
为编码后的文本特征经过平均池化操作得到的聚合文本特 征。
在重构模块完成文本重构之后,计算重构损失
Figure 718110DEST_PATH_IMAGE062
,为每个蒙版单词计算负对数似 然值并借此训练重构模块,提升其从视觉情境中提取重要信息并正确预测蒙版词的能力; 其损失函数具体为:
Figure 386988DEST_PATH_IMAGE063
其中,
Figure 114773DEST_PATH_IMAGE064
为引导文本中的所有蒙版位置的集合,
Figure 337944DEST_PATH_IMAGE065
为蒙版第i处的能量分布,
Figure 278218DEST_PATH_IMAGE066
为引导文 本第i处的真实词,
Figure 519712DEST_PATH_IMAGE067
是基于蒙版第i处的能量分布而正确生成对应真实词的概率。
在获取上述所有损失函数之后,将其结合并计算多任务损失函数,以端到端的方式训练整个神经网络;其中,用于训练判别器的损失具体为:
Figure 215136DEST_PATH_IMAGE068
用于训练生成器的损失具体为:
Figure 660024DEST_PATH_IMAGE069
其中,
Figure 403989DEST_PATH_IMAGE070
用于控制多步骤生成中第i步的权重,
Figure 516301DEST_PATH_IMAGE071
Figure 569577DEST_PATH_IMAGE072
Figure 564078DEST_PATH_IMAGE073
为超参数,用于控制不同 损失之间的平衡。
在本发明的一个具体实施中,提出了一种文本引导的图像修复系统,并给出了下述介绍。
数据获取模块:用于获取源图像及引导文本;
数据预处理模块:用于将源图像处理为待修复图像序列,将引导文本预处理为引导文本特征序列;在本实施例中,使用一个模糊度递减的方框模糊滤波器生成待修复图像序列。
修复模块:用于根据待修复图像序列及引导文本特征序列,生成修复图像序列;
重构模块:用于将引导文本进行随机蒙板,获得随机蒙板的引导文本特征序列,并结合修复模块输出的修复图像序列,生成预测引导文本;
判别模块:用于对修复模块输出的修复图像序列进行判别,输出判别结果;
训练模块:用于根据多任务损失函数对修复模块、重构模块和判别模块进行训练,训练结束后保存模型参数文件;
修复任务执行模块:当接收到图像修复信号时,读取数据预处理模块生成的待修复图像序列和引导文本特征序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待修复图像序列和引导文本特征序列作为模型输入,生成修复图像并保存。
其中,所述的训练模块采用多任务损失函数,包括:
用于训练判别器的损失
Figure 111734DEST_PATH_IMAGE074
用于训练生成器的损失
Figure 812973DEST_PATH_IMAGE075
,其中
Figure 787883DEST_PATH_IMAGE070
用 于控制多步骤生成中不同步的权重,
Figure 269680DEST_PATH_IMAGE076
Figure 870294DEST_PATH_IMAGE072
Figure 691620DEST_PATH_IMAGE077
用于控制不同损失之间的平衡。
所述多任务损失涉及如下子损失:
L1损失
Figure 837430DEST_PATH_IMAGE078
Figure 744206DEST_PATH_IMAGE079
,其中,
Figure 430403DEST_PATH_IMAGE040
为原始图像I,W为权重矩阵,其对 于未蒙版区域取0,对于蒙版区域取
Figure 621081DEST_PATH_IMAGE041
,d为该蒙版点与最近的未蒙版点之间的距离,
Figure 672214DEST_PATH_IMAGE042
在本 发明中取固定值0.99;该损失惩罚每一步生成过程的像素级误差。
总变化损失
Figure 66286DEST_PATH_IMAGE046
Figure 556173DEST_PATH_IMAGE080
,其中
Figure 352091DEST_PATH_IMAGE081
为 该像素点的坐标,且
Figure 88972DEST_PATH_IMAGE082
的值限定在图像坐标边界之内;该损失用于图像去噪以生 成更平滑的图像。
重构损失
Figure 970340DEST_PATH_IMAGE083
,其中
Figure 998339DEST_PATH_IMAGE064
为所有蒙版位置的集合,
Figure 648763DEST_PATH_IMAGE065
为蒙版 点i处的能量分布,
Figure 572857DEST_PATH_IMAGE066
为引导文本第i处的真实词,本误差为每个蒙版单词计算负对数似然值 并借此训练重构模块,提升其从视觉情境中提取重要信息并正确预测蒙版词的能力。
对抗损失包含判别器损失
Figure 925210DEST_PATH_IMAGE052
与生成器损失
Figure 960162DEST_PATH_IMAGE053
两部分,每部分又包含条 件损失与无条件损失两部分,具体为:
Figure 261830DEST_PATH_IMAGE084
对抗损失旨在使得生成的
Figure 356825DEST_PATH_IMAGE050
尽可能地与
Figure 947206DEST_PATH_IMAGE051
相似,同时它可以缓解L1损失带来的生 成图像模糊的问题。
其中,所述的修复模块包括:
第一编码-解码模块:由由文本编码器、视觉解码器构成,由文本编码器对引导文本特 征序列进行编码,获得编码后的文本特征;由视觉解码器对编码后的文本特征与特征图进 行解码,得到跨模态联合表征
Figure 769538DEST_PATH_IMAGE085
Unet编码-解码模块:由n个Unet编码器、n个Unet解码器构成,由n个UNet编码器提 取待修复图像序列的特征图;将UNet编码器生成的特征图复制到对应的Unet解码器中,并 采用Unet解码器对跨模态联合表征
Figure 394554DEST_PATH_IMAGE085
进行解码,得到修复图像序列。
其中,所述的重构模块包括:
Unet编码模块:包括n个并行独立的Unet编码器,由n个UNet编码器提取修复图像序列的修复特征图,其中使用修复模块的UNet编码网络中的后n-1个UNet编码器提取修复图像序列中前n-1个修复图像的修复特征图,并新添加一个仅用于重构模块的UNet编码器来提取修复图像序列中第n个修复图像的修复特征图。
第二编码-解码模块:由视觉编码器、文本解码器构成,由视觉编码器对修复特征 图进行编码,获得编码后的修复特征图;由文本解码器对随机蒙板的引导文本特征序列与 编码后的修复特征图进行解码,得到跨模态联合表征
Figure 457188DEST_PATH_IMAGE029
,并通过全连接层计算随机蒙板的 引导文本中的每个蒙版位置在词汇表上的能量分布,生成预测引导文本。
在本申请所提供的具体实施方式中,应该理解到,以上所描述的系统实施例仅仅是示意性的,例如所述修复模块和重构模块,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接,可以是电性或其它的形式。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在CUB-200-2011及Oxford-102两大数据集上进行实验验证,其中, CUB-200-2011数据集包含11788张图像,其中包含200种不同类别的鸟类;而Oxford-102数据集包含8189张图像,其中包含102种不同类别的花。
本发明将它们随机分为不相交的训练和测试数据集,并为每个图像随机选择3个 标题作为文本输入;对于输入的图像先进行缩放,使之高和宽中的较小值为128,并在中心 裁剪出128×128的大小的图像作为源图像,生成长度为4的待修复图像序列,
Figure 534865DEST_PATH_IMAGE086
中心掩码尺 寸为64×64,
Figure 911620DEST_PATH_IMAGE087
模糊半径依次为4,2,1;对于输入的文本,使用NLTK进行分词,并使用 cased-300d版本的预训练word2vec Glove进行特征提取。
在对比对象方面,由于此前没有类似的研究,故而对AttnGAN 和TAGAN的模型结构和参数进行调整以使其适应文本引导的图像修复任务;具体来说,对于AttnGAN,使用预训练的模型提取输入蒙版图像的特征,并将其与注意力生成网络的原始输入连接起来;对于TAGAN,本发明将输入蒙版图像而非整个源图像,仅保留L1损失及GAN损失以训练模型;此外,引入传统的图像修复模型Contextual Attention作为另一个基准,该模型仅将蒙版图像作为输入并直接进行修复。
在测试评价标准方面,本发明遵循图像修复惯例,采用三种常见的定量评估指标,即峰信噪比(PSNR),总变化损耗(TV)和结构相似度(SSIM)来评估生成结果。
表1和表2是本发明在CUB-200-2011数据集、Oxford-102数据集上的实验结果,其中↑代表越高越好,↓代表越低越好。
表1 CUB-200-2011数据集上的实验结果
Figure 640411DEST_PATH_IMAGE088
表2 本发明在Oxford-102数据集上的实验结果
Figure 873946DEST_PATH_IMAGE089
针对传统方法鲜有利用基于内容的人为引导的问题,本发明设计了一种利用文本描述指导模型修复图像的技术,并采用文本-图像-文本的训练方法,设计了一个文本重构模块指导模型根据生成的修复图像对引导文本的蒙版部分进行预测,以生成语义一致、视觉连贯、多样可控的修复图像。
针对一步修复图像过于困难的问题,本发明设计了一个由粗到细的跨模态生成网络以及一种新型监督信号指导模型逐步修复图像。
本发明还设计了一种生成对抗网络,将修复模块作为生成器,强迫修复模块生成合理的、高质量的、和文本一致的修复图像,有效地提升了修复模块的性能。
从表1和表2可以看出,本发明对鸟类图像和花类图像的修复效果,在三个经典评价标准上都已超过了传统方法,实现了修复准确率上的提高。
此外,如图4所示,本发明还实现了可控的多样性图像修复,本发明能够通过修改文本中对应的颜色单词,生成各种颜色的鸟类图像与花类图像,而这也是结构引导的图像修复方法无法实现的。除了修改颜色词之外,还可以任意修改其他的词,可以从图4中看出,每一行相对应的四个修复结果均存在差异,即可以通过引导文本的内容对修复的图像进行控制,实现可控的多样性图像修复效果。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种文本引导的图像修复方法,其特征在于,包括以下步骤:
1)获取源图像及引导文本,将源图像预处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
2)建立由修复模块和重构模块组成的神经网络模型;
修复模块将待修复图像序列及引导文本特征序列作为输入,编码图像与文本特征,并解码得到待修复图像与引导文本的跨模态联合表征,最终输出修复图像序列;
重构模块将修复图像序列及随机蒙板的引导文本特征序列作为输入,生成预测引导文本;
3)将修复模块作为生成对抗网络的生成器,构建一个判别器对生成的修复图像序列进行判别,输出判别结果;
4)根据生成对抗网络的判别结果、修复模块生成的图像修复序列以及重构模块生成的预测引导文本,计算判别器和神经网络模型的多任务损失函数并更新网络参数,得到训练好的网络模型;
5)根据训练好的网络模型的修复模块,将要修复的图像与对应的引导文本特征序列作为修复模块的输入,采用自回归的方式逐步生成最终的修复图像。
2.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,所述的修复模块包括第一编码-解码网络,以及n个并行独立的Unet编码-解码网络,所述的第一编码-解码网络由文本编码器、视觉解码器构成,Unet编码-解码网络由n个Unet编码器、n个Unet解码器构成;
由文本编码器对引导文本特征序列进行编码,获得编码后的文本特征;
由n个UNet编码器提取待修复图像序列的特征图;
由视觉解码器对编码后的文本特征与特征图进行解码,得到跨模态联合表征f c
将UNet编码器生成的特征图复制到对应的Unet解码器中,并采用Unet解码器对跨模态联合表征f c 进行解码,得到修复图像序列。
3.根据权利要求2所述的一种文本引导的图像修复方法,其特征在于,在待修复图像序列的特征图中添加未来掩码,当Unet解码器生成第i幅修复图像时无法获取第i幅之后的待修复图像信息。
4.根据权利要求2所述的一种文本引导的图像修复方法,其特征在于,所述重构网络包括第二编码-解码网络,以及n个并行独立的Unet编码器,所述的第二编码-解码网络由视觉编码器、文本解码器构成;
对引导文本进行随机蒙板处理;
由n个UNet编码器提取修复图像序列的修复特征图,其中使用修复模块的UNet编码网络中的后n-1个UNet编码器提取修复图像序列中前n-1个修复图像的修复特征图,并新添加一个仅用于重构模块的UNet编码器来提取修复图像序列中第n个修复图像的修复特征图;
由视觉编码器对修复特征图进行编码,获得编码后的修复特征图;
由文本解码器对随机蒙板的引导文本特征序列与编码后的修复特征图进行解码,得到跨模态联合表征f p ,并通过全连接层计算随机蒙板的引导文本中的每个蒙版位置在词汇表上的能量分布,生成预测引导文本。
5.根据权利要求4所述的一种文本引导的图像修复方法,其特征在于,所述的第一编码-解码网络和第二编码-解码网络采用基于Transformer模型的编码器与解码器,且视觉编码器与视觉解码器共享参数,文本编码器与文本解码器共享参数;所述的UNet编码器和Unet解码器均由激活函数层-卷积层-BatchNorm层构成的模块组成。
6.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,所述的UNet编码-解码网络使用带有残差连接的对称7层向下编码结构和7层向上解码结构,并使用最后一个编码层的特征图与编码后的文本特征进行交互。
7.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,使用一个模糊度递减的方框模糊滤波器生成待修复图像序列。
8.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,步骤3)具体为:
构建生成对抗网络,以修复模块作为生成对抗网络的生成器,基于UNet编码网络构建JCU判别器作为生成对抗网络的判别器,所述判别器由条件判别器与无条件判别器构成;
由判别器对生成的修复图像序列进行判别,输出判别结果;判别器的目标函数为: \
Figure 415558DEST_PATH_IMAGE001
其中,D(x)、D(y)为JCU判别器无条件判别结果,D(x,c)、D(y,c)为条件判别结果,G(x) 为生成器,
Figure 330425DEST_PATH_IMAGE002
是服从p input 分布的待修复图像序列x的判别结果的期望,与判别得分正 相关;
Figure 930033DEST_PATH_IMAGE003
是服从G(x)分布的修复图像序列y的判别结果期望,与判别得分负相关;min G 是生成器最小化
Figure 537732DEST_PATH_IMAGE002
,最大化
Figure 839269DEST_PATH_IMAGE003
的选择过程,max D 是判别器最大化
Figure 354564DEST_PATH_IMAGE002
,最小化
Figure 808679DEST_PATH_IMAGE003
的选择过程,y是修复图像序列;c为编码后的文本特征经过平均池化操作得到的聚 合文本特征。
9.根据权利要求1所述的一种文本引导的图像修复方法,其特征在于,所述的多任务损失函数包括:
用于训练判别器的损失函数为:
Figure 321700DEST_PATH_IMAGE004
用于训练神经网络模型的损失函数为:
Figure 861266DEST_PATH_IMAGE005
其中,w i 用于控制多步骤生成中第i步的权重,λ tv 、λ G 、λ rec 为超参数,
Figure 632782DEST_PATH_IMAGE006
为L1损失,
Figure 738141DEST_PATH_IMAGE007
为 总变化损失,
Figure 687642DEST_PATH_IMAGE008
为生成器损失,
Figure 448925DEST_PATH_IMAGE009
为判别器损失。
10.一种文本引导的图像修复系统,其特征在于,用于实现权利要求1所述的图像修复方法,所述图像修复系统包括:
数据获取模块:用于获取源图像及引导文本;
数据预处理模块:用于将源图像处理为待修复图像序列,将引导文本预处理为引导文本特征序列;
修复模块:用于根据待修复图像序列及引导文本特征序列,生成修复图像序列;
重构模块:用于将引导文本进行随机蒙板,获得随机蒙板的引导文本特征序列,并结合修复模块输出的修复图像序列,生成预测引导文本;
判别模块:用于对修复模块输出的修复图像序列进行判别,输出判别结果;
训练模块:用于根据多任务损失函数对修复模块、重构模块和判别模块进行训练,训练结束后保存模型参数文件;
修复任务执行模块:当接收到图像修复信号时,读取数据预处理模块生成的待修复图像序列和引导文本特征序列,加载训练模块生成的模型参数文件,得到训练好的模型;将待修复图像序列和引导文本特征序列作为模型输入,生成修复图像并保存。
CN202010993094.2A 2020-09-21 2020-09-21 一种文本引导的图像修复方法和系统 Active CN111861945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010993094.2A CN111861945B (zh) 2020-09-21 2020-09-21 一种文本引导的图像修复方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010993094.2A CN111861945B (zh) 2020-09-21 2020-09-21 一种文本引导的图像修复方法和系统

Publications (2)

Publication Number Publication Date
CN111861945A true CN111861945A (zh) 2020-10-30
CN111861945B CN111861945B (zh) 2020-12-18

Family

ID=72968459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010993094.2A Active CN111861945B (zh) 2020-09-21 2020-09-21 一种文本引导的图像修复方法和系统

Country Status (1)

Country Link
CN (1) CN111861945B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613577A (zh) * 2020-12-31 2021-04-06 上海商汤智能科技有限公司 神经网络的训练方法、装置、计算机设备及存储介质
CN113239844A (zh) * 2021-05-26 2021-08-10 哈尔滨理工大学 一种基于多头注意力目标检测的智能化妆镜系统
CN113836354A (zh) * 2021-02-08 2021-12-24 宏龙科技(杭州)有限公司 一种跨模态视觉与文本信息匹配方法和装置
CN114283080A (zh) * 2021-12-15 2022-04-05 复旦大学 一种多模态特征融合的文本指导图像压缩噪声去除方法
CN114418863A (zh) * 2022-03-31 2022-04-29 北京小蝇科技有限责任公司 细胞图像修复方法、装置、计算机存储介质及电子设备
CN116523799A (zh) * 2023-07-03 2023-08-01 贵州大学 基于多粒度图文语义学习的文本引导图像修复模型及方法
CN116580411A (zh) * 2023-07-11 2023-08-11 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于指令的文档图像处理方法及系统
WO2023179291A1 (zh) * 2022-03-21 2023-09-28 北京有竹居网络技术有限公司 图像修复方法、装置、设备、介质及产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269245A (zh) * 2018-01-26 2018-07-10 深圳市唯特视科技有限公司 一种基于新型生成对抗网络的眼部图像修复方法
CN109559287A (zh) * 2018-11-20 2019-04-02 北京工业大学 一种基于DenseNet生成对抗网络的语义图像修复方法
CN109903236A (zh) * 2019-01-21 2019-06-18 南京邮电大学 基于vae-gan与相似块搜索的人脸图像修复方法及装置
WO2020038207A1 (en) * 2018-08-21 2020-02-27 Huawei Technologies Co., Ltd. Binarization and normalization-based inpainting for removing text
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269245A (zh) * 2018-01-26 2018-07-10 深圳市唯特视科技有限公司 一种基于新型生成对抗网络的眼部图像修复方法
WO2020038207A1 (en) * 2018-08-21 2020-02-27 Huawei Technologies Co., Ltd. Binarization and normalization-based inpainting for removing text
CN109559287A (zh) * 2018-11-20 2019-04-02 北京工业大学 一种基于DenseNet生成对抗网络的语义图像修复方法
CN109903236A (zh) * 2019-01-21 2019-06-18 南京邮电大学 基于vae-gan与相似块搜索的人脸图像修复方法及装置
CN111340122A (zh) * 2020-02-29 2020-06-26 复旦大学 一种多模态特征融合的文本引导图像修复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOWEN LI 等: "Controllable Text-to-Image Generation", 《33RD CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2019)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613577A (zh) * 2020-12-31 2021-04-06 上海商汤智能科技有限公司 神经网络的训练方法、装置、计算机设备及存储介质
CN112613577B (zh) * 2020-12-31 2024-06-11 上海商汤智能科技有限公司 神经网络的训练方法、装置、计算机设备及存储介质
CN113836354A (zh) * 2021-02-08 2021-12-24 宏龙科技(杭州)有限公司 一种跨模态视觉与文本信息匹配方法和装置
CN113239844B (zh) * 2021-05-26 2022-11-01 哈尔滨理工大学 一种基于多头注意力目标检测的智能化妆镜系统
CN113239844A (zh) * 2021-05-26 2021-08-10 哈尔滨理工大学 一种基于多头注意力目标检测的智能化妆镜系统
CN114283080A (zh) * 2021-12-15 2022-04-05 复旦大学 一种多模态特征融合的文本指导图像压缩噪声去除方法
WO2023179291A1 (zh) * 2022-03-21 2023-09-28 北京有竹居网络技术有限公司 图像修复方法、装置、设备、介质及产品
CN114418863B (zh) * 2022-03-31 2022-06-07 北京小蝇科技有限责任公司 细胞图像修复方法、装置、计算机存储介质及电子设备
CN114418863A (zh) * 2022-03-31 2022-04-29 北京小蝇科技有限责任公司 细胞图像修复方法、装置、计算机存储介质及电子设备
CN116523799A (zh) * 2023-07-03 2023-08-01 贵州大学 基于多粒度图文语义学习的文本引导图像修复模型及方法
CN116523799B (zh) * 2023-07-03 2023-09-19 贵州大学 基于多粒度图文语义学习的文本引导图像修复模型及方法
CN116580411A (zh) * 2023-07-11 2023-08-11 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于指令的文档图像处理方法及系统
CN116580411B (zh) * 2023-07-11 2023-10-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于指令的文档图像处理方法及系统

Also Published As

Publication number Publication date
CN111861945B (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN111861945B (zh) 一种文本引导的图像修复方法和系统
Guo et al. Auto-embedding generative adversarial networks for high resolution image synthesis
CN109919830B (zh) 一种基于美学评价的带参考人眼图像修复方法
CN109685724B (zh) 一种基于深度学习的对称感知人脸图像补全方法
CN111652049A (zh) 人脸图像处理模型训练方法、装置、电子设备及存储介质
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN112686816A (zh) 一种基于内容注意力机制和掩码先验的图像补全方法
CN112184582B (zh) 一种基于注意力机制的图像补全方法及装置
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN112819689B (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN114757864B (zh) 一种基于多尺度特征解耦的多层级细粒度图像生成方法
CN113160032A (zh) 一种基于生成对抗网络的无监督多模态图像转换方法
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN113140020A (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN110516724A (zh) 可视化作战场景的高性能多层字典学习特征图像处理方法
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN116012255A (zh) 一种基于循环一致性生成对抗网络的低光图像增强方法
CN114372926A (zh) 一种基于图像修复与卷积神经网络的中医舌质老嫩识别方法
CN117876793A (zh) 一种高光谱影像树种分类方法及装置
CN114494387A (zh) 一种生成数据集网络模型及雾图生成方法
CN117522674A (zh) 一种联合局部和全局信息的图像重建系统及方法
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
Teng et al. Unimodal face classification with multimodal training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant