CN112837236B - 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质 - Google Patents

用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112837236B
CN112837236B CN202110114536.6A CN202110114536A CN112837236B CN 112837236 B CN112837236 B CN 112837236B CN 202110114536 A CN202110114536 A CN 202110114536A CN 112837236 B CN112837236 B CN 112837236B
Authority
CN
China
Prior art keywords
image
training
images
neural network
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110114536.6A
Other languages
English (en)
Other versions
CN112837236A (zh
Inventor
赵磊
王志忠
仇礼鸿
张惠铭
莫启航
林思寰
陈海博
李艾琳
左智文
邢卫
鲁东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiyuan Digital Beijing Technology Group Co ltd
Zhejiang University ZJU
Original Assignee
Yiyuan Digital Beijing Technology Group Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yiyuan Digital Beijing Technology Group Co ltd, Zhejiang University ZJU filed Critical Yiyuan Digital Beijing Technology Group Co ltd
Priority to CN202110114536.6A priority Critical patent/CN112837236B/zh
Publication of CN112837236A publication Critical patent/CN112837236A/zh
Application granted granted Critical
Publication of CN112837236B publication Critical patent/CN112837236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及一种用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质。所述方法包括:获取包括多张真实图像以及待修复图像的训练数据集,将各真实图像输入已训练的自动编码器网络,得到分别与真实图像相应的多个潜变量编码。将多张待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络。若修复图像不满足第一损失函数的约束,则调整修复神经网络的参数,直至各修复图像均满足所述第一损失函数的约束。采用本方法能够缓解模式崩溃的问题,以及提高图像修复补全的多样性。

Description

用于图像补全的修复神经网络训练方法、装置、计算机设备和 存储介质
技术领域
本申请涉及图像修复技术领域,特别是涉及一种用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质。
背景技术
图像修复就是用特定的方法来完成图像中缺失的部分。同时,它要求修复后的图像在语义上是正确的,在视觉上是真实的。图像修复是一个古老的课题,在许多领域有着广泛的应用,如旧照片恢复、图像编辑、背景建模等。传统的图像修复方法是从图像的已知部分迭代修复图像。典型的方法有补丁匹配、快速匹配和同步结构。这些方法的最大局限性是通过像素空间中的块的相似性匹配来产生图像的缺失部分,缺乏对高层语义的理解,因此修复后的图像往往容易产生伪影。为了提高图像修复的效果,提出了一系列基于统计学习的方法,即利用深度神经网络学习训练数据的分布函数,利用学习的函数对图像进行修复。因此,与传统的方法相比,基于统计学习的方法大大提高了图像绘制的效果。虽然只能给出一个图像修复的方法和结果,但这些方法并不能产生真实感的图像。图像修复本质上是一个多模态不确定问题,即给定一幅待修复的图像,会有大量合理的恢复结果。
多样性图像修复本质上是一种状态图像生成任务。大多数条件图像生成方法以随机噪声矢量和条件内容为输入,产生不同的图像结果,其中噪声矢量主要起到可变激励的作用。然而,这些方法容易受到模式崩溃的影响,网络只从很少的数据分布模式生成图像,而忽略了许多其他模式。
发明内容
基于此,有必要针对上述技术问题,提供一种能够使得已训练的修复神经网络具备依据不同参考图像提供多样性补全结果的用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质。
一种用于图像补全的修复神经网络训练方法,其特征在于,包括:
获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
将各所述真实图像输入所述已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码;
将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
可选的,所述第一损失函数包括比对学习损失函数以及背景重建损失函数。
可选的,在对所述修复神经网络进行训练之前还对所述自动编码器网络进行预先训练,使得所述已训练的自动编码器网络具备学习所述真实图像的特征以及本质规律,并将其转化为相应潜变量编码的能力。
可选的,训练所述自动编码器网络的方法包括:未训练的自动编码器网络包括编码器以及解码器;
获取训练真实图像,所述训练真实图像来自预训练数据集;
将所述训练真实图像输入编码器,得到训练潜变量编码;
将所述训练潜变量编码输入解码器,得到与所述训练真实图像相关的还原图像,若所述还原图像满足第二损失函数的约束,则完成训练并得到所述已训练的自动编码器网络;
若所述还原图像不满足第二损失函数的约束,则调整所述自动编码器网络的参数,直至所述还原图像满足第二损失函数约束。
可选的,所述第二损失函数包括:KL散度损失函数以及对抗损失函数。
可选的,所述训练数据中的各图像以及预训练数据集中的各图像均具有相同特征和本质规律。
可选的,在完成对所述修复神经网络的训练后,还基于已训练的修复神经网络进行图像补全包括:
获取实际待修复图像以及多张参考图像;
将所述实际待修复图像分别与各张参考图像输入已训练的修复神经网络中,得到依据各所述参考图像对实际待修复图像进行修复的多张实际修复图像。
本申请还提供一种用于图像补全的修复神经网络训练装置,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
潜变量编码获取模块,用于将各所述真实图像输入所述已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码;
修复神经网络训练模块,用于将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
参数调整模块,用于若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
将各所述真实图像输入所述已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码;
将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
将各所述真实图像输入所述已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码;
将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
上述用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质,通过利用已训练的自动编码器网络对修复神经网络进行训练,使得修复神经网络通过由自动编码器网络将真实图像投影至潜在变量空间作为修复图像的桥梁,并且在对修复神经网络进行训练时,遍历条件空间,从而缓解模式崩溃的问题,提高了图像补全的多样性。
附图说明
图1为一个实施例中用于图像补全的修复神经网络训练方法的流程示意图;
图2为一个实施例中训练自动编码器网络的方法的流程示意图;
图3为一个实施例中未完成训练的修复神经网络架构示意图;
图4为一个实施例中未完成训练的自动编码器网络架构示意图;
图5为一个实施例中用于图像补全的修复神经网络训练装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,提供了一种用于图像补全的修复神经网络训练方法,包括以下步骤:
步骤S100,获取训练数据集,训练数据集中包括多张真实图像以及待修复图像;
步骤S120,将各所真实图像输入已训练的自动编码器网络,得到分别与真实图像相应的多个潜变量编码;
步骤S140,将多张所待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
步骤S160,若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
在步骤S100中,真实图像是指完整的图像,而待修复图像是指图像中任一一区域缺少,需要补全的图像。并且训练数据集中的各图像均为同一类图像,均具有相同的特征,例如均为男性人脸图像、女性人脸图像、某一种动物或植物的图像等。
而待修复图像可由将训练数据集中的真实图像挖去一块得到,也可以是其他有缺失的同类图像。
在步骤S120中,已训练的自动编码器网络为具备学习真实图像的特征以及本质规律,并将其转化为相应潜变量编码的能力。该自动编码器网络的作用在与学习真实图像的特征以及本质规律并将其投影到潜在变量空间中,也就是将其转化为与真实图像的特征以及本质规律一一对应的潜变量编码。也可以说得到的潜变量编码为压缩后的真实图像,是真实图像另一种表达形式。
其中,特征以及本质规律是指真实图像的空间分布规律、像素空间和潜变量空间的映射关系。
在步骤S120中,通过已训练的自动编码器网络将各真实图像从真实图像空间投影到潜在变量空间后,得到与各真实图像在潜在变量空间一一对应的潜变量编码,利用潜变量编码对修复神经网络进行训练。
在步骤S140中,将训练数据集中一副待修复图像与任意一个潜变量编码进行任意组合后输入修复神经网络,将会得到一副相应的修复图像。并利用与修复图像相关的数据计算第一损失函数,若第一损失函数符合预设期望,则说明得到的修复图像是符合第一损失函数的约束。也就是说通过第一损失函数对修复图像约束来实现对修复神经网络的修复能力的需求。
在利用待修复图像和潜变量编码对修复神经网络进行训练的过程中,需要使得训练数据集中个待修复图像以及各潜变量编码的任何组合,并且每一个组合输入后得到的修复图像均满足第一损失函数的约束,才完成对修复神经网络的训练。
具体的,在步骤120中,本质规律就是一副真实图像对应的潜变量编码,这个潜变量编码表示了真实图像的本质。在步骤S140中,将潜变量编码做为桥梁,和某一个潜变量编码对应的真实图像同时对应一个修复好的修复图像。这两个图像通过一个共同的潜变量编码联系起来,因为真实图像我们是知道的,这个就是给定的训练数据集(比如包含30多万张的人脸图像,这个人脸图像的结合叫做真实图像空间),而给定一副待修复图像其所有的符合修复要求的修复图像的结合叫做条件完成空间。由于一个真实图像对应一个潜变量,而这个潜变量又会和一个修复图像对应。如果能够以潜变量为桥梁找到待修复图像与所有的真实图像对应修复补全的修复图像,那就可以把条件完成空间全部找到,也就是遍历条件完成空间。
需要说明的是,步骤S140与步骤S160并不表示步骤发生的先后顺序,而是当S140中,修复图像不满足第一损失函数是则实施步骤S160.
在步骤S160中,当一组待修复图像和潜变量编码输入修复神经网络后,得到的修复图像不满足第一损失函数的约束时,则调整修复神经网络的参数,再将新的组合输入修复神经网络进行迭代计算直至各修复图像均满足第一损失函数的约束。
如图3所示,未完成训练的修复神经网络的架构包括编码器、解码器以及判别器,其中Z为步骤S120中得到潜变量编码。在进行训练时,将一副待修复图像输入编码器,将其输出数据与潜变量编码输入解码器后得到修复图像。
接下来结合图3以及具体实施例对训练修复神经网络步骤以及第一损失函数进行阐述,其中第一损失函数包括比对学习损失函数以及背景重建损失函数。
假设z1和z2为潜变量空间Slv的两个向量,对应的实图像空间向量为Gp(z1)和Gp(z2),对应的条件完备空间向量为Gi(Ei(Im),z1)和Gi(Ei(Im),z2),其中Gp和Gi分别是已训练的自编码器网络以及未完成训练的修复神经网络的解码器所表示的函数,Ei表示未完成训练的修复神经网络的编码器表示的函数。
具体的,采用比对学习的概念也就是最大化生成的两幅修复图像之间的距离与其对应的真实图像之间的距离之比,使Gi(Ei(Im),z1)和Gi(Ei(Im),z2)之间的距离与Gp(z1)和Gp(z2)之比最大。
则将比对学习损失函数定义为:
Lc=Max(di(Gi(Ei(Im),z1),Gi(Ei(Im),z2))/Dp(Gp(z1),Gp(z2)) (1)
在公式(1)中,通过潜在变量空间Slv将两个图像空间关联起来,并以真实图像空间Sri为指导,通过比对学习遍历条件完成空间Scc,将该方法命名为遍历条件完备空间。
在本申请中,还希望修复后的图像能够重建出蒙版图像的背景,所以还从像素空间和特征空间来定义这种损失。其中蒙版图像就是用mask的图像和真实图像相乘,得到一个缺失的待修复图像,也可以说是蒙版图像是待修复图像。
则将背景重建损失定义为:
Lbr=Lpbr+Lfbr=EIg~Pdata,z~N(0,I)||(Gi(z,Ei(Im))-Im||1+EIg~Pdata,z~N(0,I)||ψ(Gi(z,Ei(Im)))-ψ(Im)||1 (2)
在公式(2)中,Gi(·)和Ei分别是未完成训练的修复神经网络的解码器和编码器所表示的函数,P数据是训练数据集的分布,N(0,I)表示多变量正态分布,ψ是预先训练的特征提取器,如VGG16网络。分别计算像素空间约束损失和特征空间约束损失。
在本实施例中,修复神经网络的总损耗函数Ltotal也就是第一损失函数由四组部件损耗组成:
Ltotal=λbr(Lpbr+Lfbr)+λadvLadvc(Lc) (3)
在公式(3)中,Ladv为对抗损失函数,此处用的对抗损失函数与对自编码器网络进行训练中使用的相同,在图2中,R为真实图像,其中真实图像是指训练数据集中的多个真实图像的集合,通过将真实图像与修复图像输入判别器,判别器会通过对抗损失函数学习真实图像的分布规律,如果修复图像符合这个规律,则判别器认为修复图像符合修复要求,下文中会进一步进行阐述。并且在本实施例中利用判别器实现对抗损失函数的计算。Lc为比对学习损失函数。背景重建损失函数Labr和Lfbr鼓励修复图像中补全修复的内容和已知内容(也就是真实图像中的背景)之间的一致性和完整性。
其中,λbr、λadv和λc为超参数用于控制每个损失的相对重要性。
具体的,超参数λbr鼓励修复内容和已知内容之间的一致性和完整性。超参数λadv鼓励生成高质量的图像。超参数λc鼓励生成不同的图像。为了更好地平衡生成的修复图像质量和多样性,各超参数可λadv=0.05,λbr=0.95,和λc=1.0。
在本实施例中,还利用Adam求解器优化训练过程,学习率为1e-4,并将各参数设置为β1=0.5和β2=0.9。
在利用上述修复神经网络训练方法对修复神经网络进行训练时,利用已训练的自编码器网络学习到的本质规律和特征,来对给定一副图像的条件补全完成空间进行探索,实现图像的多样性补全修复。比对学习阶段也就是定义比对学习损失函数时利用自动编码生成器有效表征生成不同的图像补全修复结果。以真实图像空间为引导,通过比对学习遍历条件完成空间。
图像比对学习任务往往以随机噪声作为输入,并生成不同的补全修复结果。如前所述,多样性图像修复是一种约束性强的条件图像生成任务。它比一般的条件图像生成任务更容易发生模式崩溃。换言之,随机噪声作为变量激励更容易被忽略,导致其输出结果的多样性较差。为了解决这一问题,本申请提出训练修复神经网络时,遍历条件完成空间的方案,可以大大提高图像修复结果的多样性,减少模式崩溃。
如图2所示,本申请还提供了一种训练自动编码器网络的方法包括:未训练的自动编码器网络包括编码器以及解码器;
步骤S200,获取训练真实图像,所述训练真实图像来自预训练数据集;
步骤S220,将所述训练真实图像输入编码器,得到训练潜变量编码;
步骤S240,将所述训练潜变量编码输入解码器,得到与所述训练真实图像相关的还原图像,若所述还原图像满足第二损失函数的约束,则完成训练并得到所述已训练的自动编码器网络;
步骤S260,若所述还原图像不满足第二损失函数的约束,则调整所述自动编码器网络的参数,直至所述还原图像满足第二损失函数约束。
在步骤S200中,预训练数据以及对修复神经网络进行训练的训练数据集中的各图像均具有相同特征和本质规律。在对自动编码器网络进行训练时,预训练数据为训练数据集中的真实图像,也可以是其他具有相同特征和本质规律的真实图像。
如图4所示,未训练的自动编码器网络包括编码器以及解码器,其中采用编码器将训练真实图像从真实图像空间映射至潜在变量空间,得到一一对应的训练潜变量编码,然后再通过解码器对该训练潜变量编码进行还原成还原图像。若还原图像与相应的训练真实图像一样,则说明编码器具有较好的转化能力。若还原图像与相应的训练真实图像不一致,则说明编码器还不具备较好的转化功能,则需要对编码器的参数进行调节,然后利用预训练数据中的预训练图像对编码器进行迭代训练,直至还原图像与训练真实图像一致,说明编码器已经完成训练,具备将真实图像从真实图像空间中投影至潜在变量空间的能力。
在本实施例中,已完成训练的自动编码器网络只存在编码器,而解码器只是在训练过程中用到,在训练完成后,则将其去除。
在本实施例中,通过第二损失函数对还原图像进行约束,在满足第二损失函数的约束下,才说明还原图像与相应的训练真实图像一致。
在本实施例中,第二损失函数包括KL散度损失函数以及对抗损失函数。其中采用KL散度损失函数约束,使潜在变量空间服从多元高斯分布,使得从多变量正态分布随机采样的噪声属于潜变量空间。这样,在对修复神经网络进行训练时,输入的随机噪声和在对自动编码器网络进行训练时的潜在变量向量属于同一个潜在变量空间,真实图像空间和条件完成空间通过潜在变量空间连接起来。
除了KL散度损失函数外,还采用了对抗性损失、特征损失和重建损失函数来更好地将图像数据投影到潜在变量空间中。
其中,未训练的自动编码器网络还包括判别器,通过将解码器重构的还原图像以及训练真实图像输入判别器后,在对抗损失函数的约束下判定还原图像是否符合要求,同样的,在上述对修复神经网络进行训练时,判别器通过对抗损失函数判定修复图像是否符合要求。
具体的,KL散度损失函数定义为:
LKL=KL(Ep(Ig)||N(0,I)) (4)
在公式(4)中,其中,Ep(·)表示自动编码器网络中的编码器表示的函数,KL(·)表示KL散度函数,N(0,I)表示多变量正态分布,Ig为真实图像。
具体的,对抗损失函数定义为:
Ladv=Min Max(EIg~PdatalogDp(Ig)+EIg~Pdatalog(1-Dp(Gp(Ep(Ig))))) (5)
在公式(5)中,Pdata是训练数据集的分布,Dp是与感知相似性度量类似的判别器,Gp(·)表示自动编码器网络中的解码器所表达的功能。采用与感知相似性度量相同的重建损失函数。
而重建损失函数包括特征重建损失函数和像素重建损失函数。这些损失函数采用目前通用的损失函数,在这里就不累述了。
在本实施例中,实际上对修复神经网络训练包括两个阶段,第一阶段为对自动编码器网络进行训练。第二阶段为,利用完成训练的自动编码器网络将真实图像投映至潜在向量空间后,将待修复图像对修复神经网络进行训练以潜变量编码为桥梁,找到一一对应的修复图像,并且在比对学习方法下,遍历真实图像空间,最后完成修复神经网络的训练。
在完成对所述修复神经网络的训练后,还基于已训练的修复神经网络进行图像补全包括:获取实际待修复图像以及多张参考图像。将实际待修复图像分别与各张参考图像输入已训练的修复神经网络中,得到依据各参考图像对实际待修复图像进行修复的多张实际修复图像。
在本实施例中,通过使用已训练的修复神经网络,依据多张参照图像对实际待修复图像进行修复,可以得到多张实际修复图像,以提高图像补全的多样性。
上述用于图像补全的修复神经网络训练方法,针对图像多样性补全容易发生模式坍塌的问题,提出了一种新的学习框架,通过自监督学习有效地模拟图像多样性补全的不确定性。具体来说,利用对比学习(最大化生成图像的距离与其对应的真实图像之间的距离之比)遍历条件完成空间,从而缓解了模式崩溃问题,提高了图像补全的多样性。
还提出了一种新的通用无监督数据嵌入表示方法,实现了潜在变量空间与真实图像空间的一对一映射。作为自监督学习的一种预先训练的任务,它不仅可以用于多种图像补全任务,也可以用于其他下游任务。
此外,还提出了一种新的无监督学习框架。它通过自监督学习的方法学习训练数据集的潜在变量表示,然后以真实图像空间为指导,通过对比学习遍历条件完成空间。具体来说,利用对比学习(最大化生成图像的距离与其对应的真实图像之间的距离之比)遍历条件完成空间,从而缓解了模式崩溃问题,提高了图像并补全的多样性。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种用于图像补全的修复神经网络训练装置,包括:训练数据获取模块300、潜变量编码获取模块320、修复神经网络训练模块340和参数调整模块360,其中:
训练数据获取模块300,用于获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像。
潜变量编码获取模块320,用于将各所述真实图像输入所述已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码。
修复神经网络训练模块340,用于将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络。
参数调整模块360,用于若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
关于用于图像补全的修复神经网络训练装置的具体限定可以参见上文中对于用于图像补全的修复神经网络训练方法的限定,在此不再赘述。上述用于图像补全的修复神经网络训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于图像补全的修复神经网络训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
将各所述真实图像输入所述已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码;
将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
将各所述真实图像输入所述已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码;
将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.用于图像补全的修复神经网络训练方法,其特征在于,包括:
获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
将各所述真实图像输入已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码;
将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束;
在对所述修复神经网络进行训练之前还对所述自动编码器网络进行预先训练,使得所述已训练的自动编码器网络具备学习所述真实图像的特征以及本质规律,并将其转化为相应潜变量编码的能力,未训练的自动编码器网络包括编码器以及解码器,训练所述自动编码器网络的方法包括:
获取训练真实图像,所述训练真实图像来自预训练数据集;
将所述训练真实图像输入编码器,得到训练潜变量编码;
将所述训练潜变量编码输入解码器,得到与所述训练真实图像相关的还原图像,若所述还原图像满足第二损失函数的约束,则完成训练并得到所述已训练的自动编码器网络;
若所述还原图像不满足第二损失函数的约束,则调整所述自动编码器网络的参数,直至所述还原图像满足第二损失函数约束。
2.根据权利要求1所述的修复神经网络训练方法,其特征在于,所述第一损失函数包括比对学习损失函数以及背景重建损失函数。
3.根据权利要求1所述的修复神经网络训练方法,其特征在于,所述第二损失函数包括:KL散度损失函数以及对抗损失函数。
4.根据权利要求1所述的修复神经网络训练方法,其特征在于,所述训练数据中的各图像以及预训练数据集中的各图像均具有相同特征和本质规律。
5.根据权利要求1所述的修复神经网络训练方法,其特征在于,在完成对所述修复神经网络的训练后,还基于已训练的修复神经网络进行图像补全包括:
获取实际待修复图像以及多张参考图像;
将所述实际待修复图像分别与各张参考图像输入已训练的修复神经网络中,得到依据各所述参考图像对实际待修复图像进行修复的多张实际修复图像。
6.一种用于图像补全的修复神经网络训练装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集中包括多张真实图像以及待修复图像;
潜变量编码获取模块,用于将各所述真实图像输入已训练的自动编码器网络,得到分别与所述真实图像相应的多个潜变量编码,在对所述修复神经网络进行训练之前还对所述自动编码器网络进行预先训练,使得所述已训练的自动编码器网络具备学习所述真实图像的特征以及本质规律,并将其转化为相应潜变量编码的能力,未训练的自动编码器网络包括编码器以及解码器,训练所述自动编码器网络的方法包括:
获取训练真实图像,所述训练真实图像来自预训练数据集;
将所述训练真实图像输入编码器,得到训练潜变量编码;
将所述训练潜变量编码输入解码器,得到与所述训练真实图像相关的还原图像,若所述还原图像满足第二损失函数的约束,则完成训练并得到所述已训练的自动编码器网络;
若所述还原图像不满足第二损失函数的约束,则调整所述自动编码器网络的参数,直至所述还原图像满足第二损失函数约束;
修复神经网络训练模块,用于将多张所述待修复图像以及多个潜变量编码进行随机组合后输入修复神经网络,依次得到与各随机组合对应的多个修复图像,若各所述修复图像均满足第一损失函数的约束,则完成训练并得到已训练的修复神经网络;
参数调整模块,用于若所述修复图像不满足所述第一损失函数的约束,则调整所述修复神经网络的参数,直至各所述修复图像均满足所述第一损失函数的约束。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述用于图像补全的修复神经网络训练方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的用于图像补全的修复神经网络训练方法的步骤。
CN202110114536.6A 2021-01-27 2021-01-27 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质 Active CN112837236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110114536.6A CN112837236B (zh) 2021-01-27 2021-01-27 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110114536.6A CN112837236B (zh) 2021-01-27 2021-01-27 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112837236A CN112837236A (zh) 2021-05-25
CN112837236B true CN112837236B (zh) 2023-11-07

Family

ID=75931981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110114536.6A Active CN112837236B (zh) 2021-01-27 2021-01-27 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112837236B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116781912B (zh) * 2023-08-17 2023-11-14 瀚博半导体(上海)有限公司 视频传输方法、装置、计算机设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191402A (zh) * 2018-09-03 2019-01-11 武汉大学 基于对抗生成神经网络的图像修复方法和系统
CN110020996A (zh) * 2019-03-18 2019-07-16 浙江传媒学院 一种基于先验知识约束的图像修复方法、系统以及计算机设备
CN110222628A (zh) * 2019-06-03 2019-09-10 电子科技大学 一种基于生成式对抗网络的人脸修复方法
CN110599411A (zh) * 2019-08-08 2019-12-20 中国地质大学(武汉) 一种基于条件生成对抗网络的图像修复方法及系统
CN111292265A (zh) * 2020-01-22 2020-06-16 东华大学 一种基于生成式对抗神经网络的图像修复方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232541B2 (en) * 2018-10-08 2022-01-25 Rensselaer Polytechnic Institute CT super-resolution GAN constrained by the identical, residual and cycle learning ensemble (GAN-circle)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191402A (zh) * 2018-09-03 2019-01-11 武汉大学 基于对抗生成神经网络的图像修复方法和系统
CN110020996A (zh) * 2019-03-18 2019-07-16 浙江传媒学院 一种基于先验知识约束的图像修复方法、系统以及计算机设备
CN110222628A (zh) * 2019-06-03 2019-09-10 电子科技大学 一种基于生成式对抗网络的人脸修复方法
CN110599411A (zh) * 2019-08-08 2019-12-20 中国地质大学(武汉) 一种基于条件生成对抗网络的图像修复方法及系统
CN111292265A (zh) * 2020-01-22 2020-06-16 东华大学 一种基于生成式对抗神经网络的图像修复方法

Also Published As

Publication number Publication date
CN112837236A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
Liu et al. Learning converged propagations with deep prior ensemble for image enhancement
CN111553246B (zh) 基于多任务对抗学习网络的汉字风格迁移方法及系统
CN109086869B (zh) 一种基于注意力机制的人体动作预测方法
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN116524299A (zh) 一种图像样本生成方法、装置、设备及存储介质
CN112837236B (zh) 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质
CN111738435A (zh) 一种基于移动设备的在线稀疏训练方法及系统
CN110929733A (zh) 除噪方法、装置、计算机设备、存储介质及模型训练方法
CN111161405A (zh) 一种动物毛发三维重建方法
CN116703747A (zh) 一种基于扩散条件生成算法的虚拟试衣图像修复方法
CN114511463B (zh) 一种数字图像修复方法、装置、设备及可读存储介质
Wei et al. Non-homogeneous haze removal via artificial scene prior and bidimensional graph reasoning
CN116051382A (zh) 一种基于深度强化学习生成式对抗神经网络和超分辨率重建的数据增强方法
CN114943656A (zh) 一种人脸图像修复方法及系统
Wang et al. Raw image reconstruction with learned compact metadata
Zhang et al. Image extrapolation based on multi-column convolutional attention network
Zhu et al. IRE: improved image super-resolution based on real-ESRGAN
CN112819687A (zh) 基于无监督神经网络的跨域图像转换方法、装置、计算机设备和存储介质
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN113256519A (zh) 图像的恢复方法、设备、存储介质及程序产品
CN113516582B (zh) 用于图像风格迁移的网络模型训练方法、装置、计算机设备和存储介质
Chen et al. Dual discriminator gan: Restoring ancient yi characters
CN116523733A (zh) 图像跨域迁移方法、计算机设备、可读存储介质和程序产品
Yang et al. Blind VQA on 360° video via progressively learning from pixels, frames, and video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221216

Address after: 310058 Yuhang Tang Road, Xihu District, Hangzhou, Zhejiang 866

Applicant after: ZHEJIANG University

Applicant after: Yiyuan digital (Beijing) Technology Group Co.,Ltd.

Address before: 310058 Yuhang Tang Road, Xihu District, Hangzhou, Zhejiang 866

Applicant before: ZHEJIANG University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant