CN115937022A - 一种基于迭代残差学习的少样本图像修复方法 - Google Patents
一种基于迭代残差学习的少样本图像修复方法 Download PDFInfo
- Publication number
- CN115937022A CN115937022A CN202211470483.2A CN202211470483A CN115937022A CN 115937022 A CN115937022 A CN 115937022A CN 202211470483 A CN202211470483 A CN 202211470483A CN 115937022 A CN115937022 A CN 115937022A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- discriminator
- patch
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于迭代残差学习的少样本图像修复方法,包含生成器网络、映射空间鉴别器和伪造补丁鉴别器网络。每次训练,模型会迭代多次并对修复结果进行优化。在每次迭代优化中,生成器会重用之前的修复结果,并进一步预测修复区域和原始样本之间的残差信息。结合残差信息得到新一轮的修复结果,并对其进行损失值的计算。结合映射空间生成对抗损失、伪造补丁生成对抗损失和感知损失计算出损失值并进行反向传播,对生成器网络、映射空间鉴别器和伪造补丁鉴别器网络的参数进行调整。重复上述步骤,直至训练结束,选择最优网络参数作为修复模型参数;实施本发明,能够实现一种在少样本和多样本数据集上取得高质量修复的图像修复方法。
Description
技术领域
本发明涉及图像修复技术领域,尤其涉及一种基于迭代残差学习的少样本图像修复方法。
背景技术
在图像修复方法中,早期基于扩散的方法和基于补丁的方法主要利用图像周围相似的信息来填补图像的缺失区域。这些方法在较小缺失区域的情况下表现良好。但是由于无法感知图像的全局语义关系,使得在较大缺失区域情况下,模型的表现效果不佳。
而现有的基于深度学习的修复方法虽然能够在缺失区域生成令人满意的结果,但是这些方法存在如下问题:第一,这类方法依赖大量的训练样本,有限的少量样本易使训练的模型出现过拟合的情况。第二,可以通过模型轻量化来缓解过拟合的问题,但是轻量的模型学习能力有限,无法在大样本数据集上依然保证良好的表现。上述的两个问题进一步限制了图像修复在现实场景的使用。比如医学图像、艺术图像和历史文物图像,这类图像采集比较困难。利用现有的修复模型方法难以在这类图像域上取得良好的表现。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于迭代残差学习的少样本图像修复方法,不仅能够在大数据集上取得良好的修复结果,并且能在少样本数据集上取得优异的修复表现。
为了解决上述技术问题,本发明实施例提供了一种基于迭代残差学习的少样本图像修复方法,构建图像修复模型以对输入图像进行修复处理,其特征在于,该图像修复模型至少通过以下步骤得到:
步骤S1、给定训练集以及测试集 其中,Igti表示训练集中的第i张图像,3表示颜色通道数量,对应的颜色通道d∈{红,绿,蓝},K表示单张图片的宽或高的尺寸;表示测试集中第j张图像。N表示训练集Itrain的样本数量;H表示测试集Itest的样本数量;
步骤S2、构建网络模型,用于基于迭代残差的图像修复;该网络模型至少包括生成器网络、空间映射鉴别器和伪造补丁鉴别器;其中,利用卷积神经网络和Transformer来构造生成器网络G(·),用于结合上一次迭代优化的输出结果来预测出当前输入的修复区域和真实样本之间的残差信息,并求出新一轮的修复结果;构造空间映射鉴别器D(·),用于在预训练模型的映射空间进行生成对抗训练,协助生成器G(·)学习在分类器网络的映射空间下的真实样本的特征分布,D(·)的参数表示为θd;构造伪造补丁鉴别器E(·),用于在图像补丁和图像细节上进行生成对抗训练,协助生成器G(·)学习到真实样本的细节特征,E(·)的参数表示为θe;最后对所有网络进行模型初始化。因此在第q次训练时,生成器网络G(·)、空间映射鉴别器D(·)和伪造补丁鉴别器E(·)的网络的参数分别设为
步骤S3、在第q次训练过程中,遍历所有训练集的样本。对当前取到的第i训练样本生成一个随机二值掩码来构造初始化输入图像 并设定将初始化输入图像设定为第0次的修复结果。在第t次迭代优化中,通过将上一次的修复结果和对应的二值掩码Mi输入到生成器G(·)中,生成器预测对应的残差信息并处理得到新一轮的修复结果
每次迭代优化都会计算损失值,结合映射空间生成对抗损失、伪造补丁生成对抗损失和感知损失计算出损失值。根据损失值进行反向传播,利用随机梯度下降法对生成器网络G(·)、映射空间鉴别器D(·)和伪造补丁鉴别器E(·)的参数进行更新调整。
步骤S4、利用测试集Itest对本发明的方法模型进行评估。若模型在测试图像中的修复质量指标为当前最高,则保存模型参数,并令 和表示当前生成器网络G(·)、映射空间鉴别器D(·)和伪造补丁鉴别器E(·)的最优模型参数。判断训练是否已经达到最大训练次数n,若已经达到最大训练次数n,则训练阶段结束则跳转至步骤S5,否则跳转至步骤S3。
步骤S5、得到生成器网络G(·)、映射空间鉴别器D(·)和伪造补丁鉴别器E(·)的模型参数。并将生成器网络用于迭代残差学习的图像修复。
作为进一步的改进方案,在所述步骤S1中,训练集Itrain和测试集Itest皆为图像集合,并且不需要图像标签。
作为进一步的改进方案,在所述步骤S2中,生成器G(·)由卷积神经网络和Transformer构造而成。卷积神经网络用来构造编码器和解码器,用于对视觉特征的提取;Transformer中的自注意力机制(Self-attention)主要利用已有信息来进行推理,所以Transformer主要在抽象特征中用于全局语义特征的推理。编码器和解码器的网络结构,请参考FastGAN(B.Liu,Y.Zhu,K.Song,and A.Elgammal,“Towards faster and stabilizedGAN training for high-fidelity few-shot image synthesis,”in 9th InternationalConference on Learning Representations,ICLR 2021,Virtual Event,Austria,May 3-7,2021.)。Transformer的网络结构,请参考Restormer(S.W.Zamir,A.Arora,S.Khan,M.Hayat,F.S.Khan,and M.H.Yang,“Restormer:Efficient transformer for high-resolution image restoration,”in CVPR.Washington:IEEE,2022.)。映射空间鉴别器D(·)由卷积神经网络构造而来,本发明使用了Projected GAN中最大尺度的鉴别器,并移除了其他的鉴别器,结构请参考Projected GAN(A.Sauer,K.Chitta,J.M··uller,andA.Geiger,“Projected gans converge faster,”in Advances in Neural InformationProcessing Systems(NeurIPS),2021.)。其利用的预训练分类网络模型P(·)可以直接使用预训练的EfficientNet(M.Tan and Q.Le,“EfficientNet:Rethinking model scalingfor convolutional neural networks,”in Proceedings of the 36th InternationalConference on Machine Learning,ser.Proceedings of Machine Learning Research,K.Chaudhuri and R.Salakhutdinov,Eds.,vol.97.PMLR,09-15Jun 2019,pp.6105-6114.)或者VGG网络(K.Simonyan and A.Zisserman,“Very deep convolutional networks forlarge-scale image recognition,”in Proceedings of the 3rd InternationalConference on Learning Representations(ICLR),2015.)。伪造补丁鉴别器E(·)的网络可以直接使用PatchGAN中的鉴别器的模型参数(P.Isola,J.-Y.Zhu,T.Zhou,andA.A.Efros,“Image-to-image translation with conditional adversarial networks,”in 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Washington:IEEE,2017,pp.5967-5976)。
其中,表示预处理后的输入图像;Mi为对应的二值掩码,1用于指示缺损区域,0表示已知区域,已知区域不会进行改变。⊙为哈达玛积(Hadamard Product)。通过广播机制,使得在中,和Mi掩盖区域对应的像素点的信息将会被抹去,并表示为0。
在t次迭代优化的情形下,对应的残差信息的预测计算公式为:
其中,在二值掩码所指定的修复区域中,上一次的修复结果和新预测的残差信息会进行相加,而已知区域可以直接重用原来的输入信息而不进行改变。迭代次数T可以再训练之初进行设定,如T=3。
作为进一步的改进方案,在所述步骤S3中,本发明首先提出一种映射空间生成对抗损失,其计算公式为:
为了简化公式,这里将下标i省略。其中,是用于优化映射空间鉴别器D(·)参数的目标函数,在优化D(·)的时候,生成器G(·)的参数固定,不参与更新;是用于优化生成器G(·)参数的目标函数,在优化G(·)的时候,映射空间鉴别器D(·)的参数固定,不参与更新;表示对输入为Igt的结果求取期望,同理;ReLU(·)是线性整流函数;P(·)是上述提到的预训练的分类模型的特征提取器。映射空间生成对抗损失利用预训练的特征编码直接提取视觉特征。映射空间鉴别器D(·)只需要专注对抽象视觉特征的分布学习,使得D(·)用更少的模型参数捕获整体图像的语义信息,缓解在少样本上过拟合情况的发生。
接着,本发明提出一种伪造补丁生成对抗损失,用于对图像的局部浅层信息的分布的捕获。该损失函数能够鼓励生成器网络能够在修复细节上进行进一步的优化。在输入信息输入到伪造补丁鉴别器E(·)之后,E(·)输出大小为w′×h′的二维张量。二维张量的每一个点,都对应了切片范围为E(·)感受野大小(N×N)所对应切片的置信度,即该图像切片有多大的程度被认为是真实样本的图像切片。在计算伪造补丁生成对抗损失之前,首先构造对应的标签图其尺度大小和E(·)输出一样。首先利用E(·)的感受野,将输入的二值掩码和图片根据感受野进行裁剪。可以得到裁剪后的子切片Ra,b和1≤a≤h′,1≤b≤m′。对应的标签图的构造公式为:
如果的值不为0,说明对应的子切片Ra,b区域中包含了生成器G(·)所生成的像素点,即可认为该切片为伪造切片。反之,该切片被认为是真实切片。所以对应的Xa,b=1就表示对应的感受野区域下的切片为伪造切片,Xa,b=0即认为是真实的切片。
对应的伪造补丁生成对抗损失的计算公式如下:
其中,为了简化公式,这里将下标i省略。用于约束伪造补丁鉴别器E(·)参数的目标函数;是用于约束生成器G(·)参数的目标函数。X是构造出来的标签图,其尺度大小和的输出大小相同。在伪造补丁生成对抗损失的约束下,为了能够分辨出包含生成像素点的图片块和真实样本的图片块。伪造补丁鉴别器不仅需要学习真实像素点的分布情况,还需要考虑生成像素点和周围像素点的一致性。这就为鉴别器提供一种更明确、严格的约束。帮助鉴别器快速捕获真实图像块和生成图像块的区别。这也使得生成器G(·)不得不考虑生成像素点和周围的情况,而不是单纯的只让生成像素点能够接近真实样本的在像素点上的分布,从而强化模型在修复细节上的视觉质量。
感知损失Llpips的公式如下所示:
其中,F(·)是预训练分类网络模型的特征提取器。(LPIPS loss,请参考:R.Zhang,P.Isola,A.A.Efros,E.Shechtman,and 0.Wang,``The unreasonableeffectiveness of deep features as a perceptual metric,”in Proc.CVPR,2018,pp.586-595.)。
将映射空间生成对抗损失、伪造补丁生成对抗损失和感知损失进行共同约束,得到了对生成器的最终目标函数的公式为:
θg,θd,θe分别表示生成器网络、映射空间鉴别器网络、伪造补丁鉴别器网络;通过将生成器网络、映射空间鉴别器网络、伪造补丁鉴别器网络进行联合训练,其公式如下:
即,首先分别优化映射空间鉴别器网络D(·)和伪造补丁鉴别器网络E(·)中的参数,然后再优化生成器网络G(·)中的参数;在推理过程中,生成器网络G(·)通过多次迭代优化,来实现基于残差学习的图像修复;映射空间鉴别器网络和伪造补丁鉴别器网络用于在训练期间分辨真假样本,通过生成对抗的方式使得模型能够学习到真实样本的分布。
其中,在所述步骤S4中,利用测试集Itest对本发明的方法模型进行评估,其具体步骤为:
首先根据测试集生成一组固定的二值掩码集合对数据进行遍历,每次遍历,都从测试集Itest和二值掩码集合Imask中以相同的索引下标来各取一个样本,以步骤S3中描述的计算方式来对每个样本进行计算,但是不参与损失值和梯度计算,也不进行反向传播,参数也不参与更新。得到对应的修复结果集合 对测试集Itest和修复结果集合Ytest进行Fr′echet inception distance指标计算。(FID,请参考:M.Heusel,H.Ramsauer,T.Unterthiner,B.Nessler,and S.Hochreiter,GANs trained by a twotime-scale update rule converge to a local nash equilibrium,”in Proc.NIPS,2017,pp.6626-6637.)。这里定义最优模型网络参数和的FID指标为fidbest,若fidbest>fidq,则令fidbest=fidq。
与现有技术相比,本发明具有如下有益效果:
1、与现有的图像修复方法相比,本发明能够基于少量的样本来训练得到图像修复模型,并且该修复模型能够保证修复图像的视觉质量,在实际应用中有较好的价值和前景;
2、本发明提出一种基于迭代残差学习的少样本图像修复方法。该方法在生成对抗网络架构的基础上,首先引入迭代残差学习的修复框架,使得模型只需要在每个阶段利用之前的修复结果来预测修复区域和原始图像内容的残差信息。在这种训练机制下模型有更好的泛化能力,不仅在大样本数据集上取得良好的修复效果,而且能够在少样本数据集上取得优异的修复质量。本发明引入一种映射空间生成对抗损失,利用预训练分类器的编码特征,使得映射空间鉴别器在不需要引入过多的学习参数的前提下,依然能够捕获图像的全局语义关系,学习到全局的语义特征,实现对图像整体语义分布的学习。其次,本发明提出一种伪造补丁生成对抗损失,基于伪造补丁的鉴别器的感受野来将图像划分成多个部分重叠的图像块。鼓励伪造补丁鉴别器网络不仅要区分修复图片和原始图片像素点的分布,并且要考虑到生成像素和周围像素的一致性,给鉴别器更明确、严格的约束。该约束同样鼓励生成器网络对原始样本的像素细节、结构、纹理的学习,从而强化修复图像的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的一种基于迭代残差学习的少样本图像修复方法的流程图;
图2为本发明实施例提供的一种基于迭代残差学习的少样本图像修复方法的架构图;
图3为采用本发明方法的修复视觉效果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
为了克服现有技术存在的技术缺陷,本发明提出一种基于迭代残差学习的少样本图像修复方法。该方法在生成对抗网络架构的基础上,首先引入一种迭代残差学习的推理方法。通过每次预测缺失区域和原始样本之间的残差信息,来不断地优化最终的修复结果。其次提出映射空间生成对抗损失函数和伪造补丁生成对抗损失函数。映射空间鉴别器利用预训练的分类模型来提取图像的抽象语意特征。因此该模型只需要较少的学习参数实现在编码空间下对真实样本分布的学习。通过这种方式来捕获图像的全局特征,并防止模型在少量样本的情况下过拟合情况的发生。伪造补丁鉴别器输出中的每个单元都和输入的图像的某个区块补丁一一对应。通过将这种映射关系清晰地约束伪造补丁鉴别器,让鉴别器更加清晰地学习伪造补丁和真实补丁之间的分布差异,从而提高生成器在图像细节纹理上的生成质量。
采用本发明技术方案,不仅能够在大数据集上取得良好的修复结果,并且能在少样本数据集上取得优异的修复表现。并且,该方法可以通过控制迭代优化的次数,来调整图像修复的修复质量。以下结合具体实施例描述本发明的技术方案。
如图1所示,为本发明实施例中,提出的一种基于迭代残差学习的少样本图像修复方法的流程框图,该方法包括以下步骤:
步骤S1、给定训练集以及测试集 其中,表示训练集中的第i张图像,3表示颜色通道数量,对应的颜色通道d∈{红,绿,蓝},K表示单张图片的宽或高的尺寸;表示测试集中第j张图像。N表示训练集Itrain的样本数量;H表示测试集Itest的样本数量。训练集Itrain和测试集Itest皆为图像集合,并且不需要图像标签。
步骤S2、构建网络模型,用于基于迭代残差的图像修复;该网络模型至少包括生成器网络、空间映射鉴别器和伪造补丁鉴别器;其中,利用卷积神经网络和Transformer来构造生成器网络G(·),用于结合上一次迭代优化的输出结果来预测出当前输入的修复区域和真实样本之间的残差信息,并求出新一轮的修复结果;构造空间映射鉴别器D(·),用于在预训练模型的映射空间进行生成对抗训练,协助生成器G(·)学习在映射空间下的真实样本的特征分布,D(·)的参数表示为θd;构造伪造补丁鉴别器E(·),用于在图像补丁和图像细节上进行生成对抗训练,协助生成器G(·)学习到真实样本的细节特征,E(·)的参数表示为θe;最后对所有网络进行模型初始化。因此在第q次训练时,生成器网络G(·)、空间映射鉴别器D(·)和伪造补丁鉴别器E(·)的网络的参数分别设为
其中,生成器G(·)的构建如图2(a)所示。该网络在编码器部分由卷积层、下采样卷积模块(residual down-sampling blocks)和AOT-模块构建而成;接着,编码器的输出结果会继续输入到Transformer模块构造的网络中进行进一步推理,Transformer中的自注意力机制(Self-attention)主要利用已有信息来进行推理,所以Transformer主要在抽象特征中用于全局语义特征的推理。在此过程中,跳跃连接(skip connections)和跳层激活(skip-layer excitation)操作被用于将多尺度的特征图在解码器中进行信息聚合。解码器由上采样卷积模块(up-sampling blocks)、AOT-模块和卷积层构建而成。下采样卷积模块(residual down-sampling blocks)、上采样卷积模块(up-sampling blocks)和跳层激活(skip-layer excitation)请参考FastGAN(B.Liu,Y.Zhu,K.Song,and A.Elgammal,“Towards faster and stabilized GAN training for high-fidelity few-shot imagesynthesis,”in 9th International Conference on Learning Representations,ICLR2021,Virtual Event,Austria,May 3-7,2021,2021.);AOT-模块请参考AOT-GAN(Y.Zeng,J.Fu,H.Chao,and B.Guo,“Aggregated contextual transformations for high-resolution image inpainting,”in Arxiv,2020.);Transformer的网络结构,请参考Restormer(S.W.Zamir,A.Arora,S.Khan,M.Hayat,F.S.Khan,and M.H.Yang,“Restormer:Efficient transformer for high-resolution image restoration,”inCVPR.Washington:IEEE,2022.)。
映射空间鉴别器D(·)由卷积神经网络构造而来,本发明使用了最大尺度的鉴别器,结构请参考Projected GAN(A.Sauer,K.Chitta,J.M¨uller,and A.Geiger,“Projectedgans converge faster,”in Advances in Neural Information Processing Systems(NeurIPS),2021.)。其利用的预训练分类网络模型P(·)可以直接使用预训练的EfficientNet(M.Tan and Q.Le,“EfficientNet:Rethinking model scaling forconvolutional neural networks,”in Proceedings of the 36th InternationalConference on Machine Learning,ser.Proceedings of Machine Learning Research,K.Chaudhuri and R.Salakhutdinov,Eds.,vol.97.PMLR,09–15Jun 2019,pp.6105–6114.)或者VGG网络(K.Simonyan and A.Zisserman,“Very deep convolutional networks forlarge-scale image recognition,”in Proceedings of the 3rd InternationalConference on Learning Representations(ICLR),2015.)。伪造补丁鉴别器E(·)的网络可以直接使用PatchGAN中的鉴别器的模型参数(P.Isola,J.-Y.Zhu,T.Zhou,andA.A.Efros,“Image-to-image translation with conditional adversarial networks,”in 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Washington:IEEE,2017,pp.5967-5976)。
步骤S3、在第q次训练过程中,遍历所有训练集的样本。对当前取到的第i训练样本生成一个随机二值掩码来构造初始化输入图像 并设定将初始化输入图像设定为第0次的修复结果。在第t次迭代优化中,通过将上一次的修复结果对应的二值掩码Mi输入到生成器G(·)中,生成器预测对应的残差信息Δt并处理得到新一轮的修复结果
每次迭代优化都会计算损失值,结合映射空间生成对抗损失、伪造补丁生成对抗损失和感知损失计算出损失值。根据损失值进行反向传播,利用随机梯度下降法对生成器网络G(·)、映射空间鉴别器D(·)和伪造补丁鉴别器E(·)的参数进行更新调整。
其中,表示预处理后的输入图像;Mi为对应的二值掩码,1用于指示缺损区域,0表示已知区域,已知区域不会进行改变。⊙为哈达玛积(Hadamard Product)。通过广播机制,使得在中,和Mi掩盖区域对应的像素点的信息将会被抹去,并表示为0。
在t次迭代优化的情形下,对应的残差信息的预测计算公式为:
其中,在二值掩码所指定的修复区域中,上一次的修复结果和本次预测的残差信息会进行相加,而已知区域可以直接重用原来的输入信息而不进行改变。迭代次数T可以再训练之初进行设定,如T=3。
作为进一步的改进方案,在所述步骤S3中,本发明首先提出一种映射空间生成对抗损失,其计算公式为:
为了简化公式,这里将下标i省略。其中,是用于优化映射空间鉴别器D(·)参数的目标函数,在优化D(·)的时候,生成器G(·)的参数固定,不参与更新;是用于优化生成器G(·)参数的目标函数,在优化G(·)的时候,映射空间鉴别器D(·)的参数固定,不参与更新;表示对输入为Igt的结果求取期望值,同理;ReLU(·)是线性整流函数;P(·)是上述提到的预训练的分类模型的特征提取器。映射空间生成对抗损失利用预训练的特征编码直接提取视觉特征。映射空间鉴别器D(·)只需要专注对抽象视觉特征的分布学习,使得D(·)用更少的模型参数捕获整体图像的语义信息,避免了在少样本上的过拟合。
接着,本发明提出一种伪造补丁生成对抗损失,用于对图像的局部浅层信息的分布的捕获。该损失函数能够鼓励生成器网络能够在修复细节上进行进一步的优化。在输入信息输入到伪造补丁鉴别器E(·)之后,E(·)输出大小为w′×h′的二维张量。二维张量的每一个点,都对应了切片范围为E(·)感受野大小(N×N)所对应切片的置信度,即该图像切片有多大的程度被认为是真实样本的图像切片。在计算伪造补丁生成对抗损失之前,首先构造对应的标签图其尺度大小和E(·)输出一样。首先利用E(·)的感受野,将输入的二值掩码和图片根据感受野进行裁剪。可以得到裁剪后的子切片Ra,b和1≤a≤h′,1≤b≤m′。对应的标签图的构造公式为:
如果的值不为0,说明对应的子切片Ra,b区域中包含了生成器G(·)所生成的像素点,即可认为该切片为伪造切片。反之,该切片被认为是真实切片。所以对应的Xa,b=1就表示对应的感受野区域下的切片为伪造切片,Xa,b=0即认为是真实的切片。
切片裁剪的过程计算流程:首先在构造伪造补丁鉴别器的时候。通过对该网络中的所有卷积核的卷积核大小(kernel size),步长(stride),以及填充值(padding)进行统计计算,能够得出最后输出的每个单元所对应的感受野以及感受区域。这个感受区域可以理解为一个滤波窗口在滤波过程中所计算的每个子区域。滤波窗口的窗口大小是对应感受野大小,滤波步长即所有卷积核以及下采样操作下的步长的累乘。滤波窗口的填充值大小的计算同理,也是经过累积获得。通过这种方式,能够构造一个对应的无学习参数的滤波器,在滤波的过程中,对每个窗口进行裁剪。
对应的伪造补丁生成对抗损失的计算公式如下:
其中,为了简化公式,这里将下标i省略。用于约束伪造补丁鉴别器E(·)参数的目标函数;是用于约束生成器G(·)参数的目标函数。X是构造出来的标签图,其尺度大小和的输出大小相同。在伪造补丁生成对抗损失的约束下,为了能够分辨出包含生成像素点的图片块和真实样本的图片块。伪造补丁鉴别器不仅需要学习真实像素点的分布情况,还需要考虑生成像素点和周围像素点的一致性。这就为鉴别器提供一种更明确、严格的约束。帮助鉴别器快速捕获真实图像块和生成图像块的区别。这也使得生成器G(·)不得不考虑生成像素点和周围的情况,而不是单纯的只让生成像素点能够接近真实样本的在像素点上的分布,从而强化模型在修复细节上的视觉质量。
感知损失Llpips的公式如下所示:
其中,F(·)是预训练分类网络模型的特征提取器。(LPIPS loss,请参考:R.Zhang,P.Isola,A.A.Efros,E.Shechtman,and O.Wang,The unreasonableeffectiveness of deep features as a perceptual metric,”in Proc.CVPR,2018,pp.586-595.)。
将映射空间生成对抗损失、伪造补丁生成对抗损失和感知损失进行共同约束,得到了对生成器的最终目标函数的公式为:
θg,θd,θe分别表示生成器网络、映射空间鉴别器网络、伪造补丁鉴别器网络;通过将生成器网络、映射空间鉴别器网络、伪造补丁鉴别器网络进行联合训练,其公式如下:
即,首先分别优化映射空间鉴别器网络D(·)和伪造补丁鉴别器网络E(·)中的参数。然后再优化生成器网络G(·)中的参数;在推理过程中,生成器网络G(·)通过多次迭代优化,来实现基于残差学习的图像修复;映射空间鉴别器网络和伪造补丁鉴别器网络用于在训练期间分辨真假样本,通过生成对抗的方式使得模型能够学习到真实样本的分布。
步骤S4、利用测试集Itest对本发明的方法模型进行评估。若模型在测试图像中的修复质量指标为当前最高,则保存模型参数,并令 和表示当前生成器网络G(·)、映射空间鉴别器D(·)和伪造补丁鉴别器E(·)的最优模型参数。判断训练是否已经达到最大训练次数n,若已经达到最大训练次数n,则训练阶段结束则跳转至步骤S5,否则跳转至步骤S3。
其中,利用测试集Itest对本发明的方法模型进行评估,其具体步骤为:
首先根据测试集生成一组固定的二值掩码集合对数据进行遍历,每次遍历,都从测试集Itest和二值掩码集合Imask中以相同的索引下标来各取一个样本,以步骤S3中描述的计算方式来对每个样本进行计算,但是不参与损失值和梯度计算,也不进行反向传播,参数也不参与更新。得到对应的修复结果集合 对测试集Itest和修复结果集合Ytest进行Fr′echet inception distance指标计算。(FID,请参考:M.Heusel,H.Ramsauer,T.Unterthiner,B.Nessler,and S.Hochreiter,GANs trained by a twotime-scale update rule converge to a local nash equilibrium,”in Proc.NIPS,2017,pp.6626-6637.)。这里定义最优模型网络参数和的FID指标为fidbest,若fidbest>fidq,则令fidbest=fidq。二值掩码集Imask只生成一次,并一直在后续的测试中使用,保证每次测试的条件相同。
步骤S5、得到生成器网络G(·)、映射空间鉴别器D(·)和伪造补丁鉴别器E(·)的模型参数。结合最优生成器网络模型G(·)和本文提出迭代残差学习框架,通过多次迭代前向传播,实现图像的迭代残差修复。
由上述技术描述可知,实施本发明实施例,具有如下有益效果:
1、与现有的图像修复方法相比,本发明能够基于少量的样本来训练得到图像修复模型,并且该修复模型能够保证修复图像的视觉质量,在实际应用中有较好的价值和前景;
2、本发明提出一种基于迭代残差学习的少样本图像修复方法。该方法在生成对抗网络架构的基础上,首先引入迭代残差学习的修复框架,使得模型只需要在每个阶段利用之前的修复结果来预测修复区域和原始图像内容的残差信息。在这种训练机制下模型有更好的泛化能力,不仅在大样本数据集上取得良好的修复效果,而且能够在少样本数据集上取得优异的修复质量。本发明引入一种映射空间生成对抗损失,利用预训练分类器的编码特征,使得映射空间鉴别器在不需要引入过多的学习参数的前提下,依然能够捕获图像的全局语义关系,学习到全局的语义特征,实现对图像整体语义内容的分布学习。其次,本发明提出一种伪造补丁生成对抗损失,基于伪造补丁的鉴别器的感受野来将图像划分成多个部分重叠的图像块。鼓励伪造补丁鉴别器网络不仅要区分修复图片和原始图片像素点的分布,并且要考虑到生成像素和周围像素的一致性,给鉴别器更明确、严格的约束。该约束同样鼓励生成器网络对原始样本的像素细节、结构、纹理的学习,从而强化修复图像的质量。
为了验证本发明技术的修复效果,将通过算法对比验证发明的有效性:
本方法通过在公开的多样本图像数据集CelebA-HQ(28000张用于训练,2000张用于测试)、Paris Street View(14900张用于训练,100张用于测试)以及少样本图像数据集CHASE_DB1(18张用于训练,10张用于测试)、anime face(90张用于训练,30张用于测试)和Animal-Face dog(309张用于训练,80张用于测试)上进行对比来验证算法的有效性。本发明与Recurrent Feature Reasoning(RFR),Co-mod-GAN(CMOD),Lama,和MAT等4个近两年先进的修复算法进行对比。
在多样本图像数据集上的修复对比参见表1和表2。其中“10-20%”表示待修复图像的二值掩码占比整个图像大小的10%-20%;“Center”表示掩码为25%的中心方形掩码。从表1和表2可以看出,本发明在多样本数据集中能获得较好的修复效果。比如,在ParisStreet View数据集上,本发明能够在50-60%的掩码占比下获得58.08的FID指标值,比MAT的66.80的FID指标值低8.72。
表1在CelebA-HQ数据集上的FID指标对比
表2在Paris Street View数据集上的FID指标对比
在少样本图像数据集上的修复对比参见表3、表4和表5。从表3、表4和表5中可以看出,本发明在少样本图像数据集上的各种掩码情况下,都能取得较好的修复效果。比如,在anime face数据集上的50-60%掩码占比下,本发明能够获得65.05的FID指标值,比RFR方法的82.82的FID指标值还要低17.77。
表3在CHASE_DB1数据集上的FID指标对比
表4在anime face数据集上的FID指标对比
表5在Animal-Face dog数据集上的FID指标对比
本发明的修复视觉效果如图3所示。本发明展示了在多样本图像数据集和少样本图像数据集上的修复效果,本发明所述方法能够在多样本和少样本图像数据集上都具有良好的修复性能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (7)
1.一种基于迭代残差学习的少样本图像修复方法,构建图像修复模型以对输入图像进行修复处理,其特征在于,该图像修复模型至少通过以下步骤得到:
步骤S1、获取训练集和测试集;其中,训练集用于对模型参数的训练调整,测试集用于对模型进行评估检验;
步骤S2、构建网络模型,用于基于迭代残差学习的少样本图像修复;该网络模型至少包括生成器网络、映射空间鉴别器和伪造补丁鉴别器网络;其中,生成器网络利用前一次迭代的修复结果和对应的二值掩码,来进一步预测修复区域和原始样本之间的残差信息;通过结合残差信息来获得新一轮的修复结果;映射空间鉴别器网络,用于在预训练分类器网络的编码空间中进行生成对抗训练,旨在让生成器网络所生成的样本能够在预训练编码空间中和真实样本有着一致的数据分布;伪造补丁鉴别器网络专注于浅层信息的一致性,协助生成器生成的样本能够在颜色、纹理和结构中和真实样本有着一致的分布;对所有网络进行模型初始化;
步骤S3、在任一次训练过程中,首先生成和训练图像同样尺寸的二值掩码,然后抹去掩码中对应位置的图像信息,将掩码和图像作为初始的输入信息;模型接着对输入信息进行多次迭代优化;在训练过程中,每次的优化都会伴随损失值的计算和模型参数更新;而在测试阶段,损失值不会进行计算;
在任意一次优化迭代中,上一次优化的修复结果和二值掩码一起输入到生成器网络中;生成器根据输入的信息,预测出当前输入的修复区域和真实样本之间的残差信息;该残差信息会结合上一次的修复结果得到优化后的修复结果;
得到当前迭代优化的修复结果之后,映射空间生成对抗损失、伪造补丁生成对抗损失和感知损失计算出损失值并进行反向传播;模型利用随机梯度下降法对生成器网络、映射空间鉴别器和伪造补丁鉴别器网络的参数进行更新调整;
步骤S4、利用测试集对模型进行评估;若模型在测试图像中的修复质量指标为当前最高,则保存模型参数;判断训练是否结束,结束则跳转至步骤S5,否则跳转至步骤S3;
步骤S5、得到最优的生成器网络、映射空间鉴别器和伪造补丁鉴别器网络模型参数,并将生成器网络作为图像修复模型用于迭代残差学习的图像修复。
2.根据权利要求1所述的基于迭代残差学习的少样本图像修复方法,其特征在于,在所述步骤S1中,训练集和测试集皆为图像集合,并且不需要图像标签。
3.根据权利要求1所述的基于迭代残差学习的少样本图像修复方法,其特征在于,在所述步骤S2中,生成器G由卷积神经网络和Transformer构造而成;映射空间鉴别器D利用预训练的分类网络模型P所编码的特征作为输入,并用于二分类判定;伪造补丁鉴别器网络E由卷积神经网络构成,输出为一个二维张量,张量的每个点对应感受野下包含的图片补丁的分布置信度;映射空间鉴别器D和伪造补丁鉴别器网络E的输出的分数越高,表示置信度越高,样本越接近真实数据的分布。
4.根据权利要求1所述的基于迭代残差学习的少样本图像修复方法,其特征在于,在所述步骤S3中,输入图像的初始化公式为:
Iin=Igt⊙(1-M),
其中,Iin表示预处理后的输入图像;Igt表示真实样本;M为对应的二值掩码,1用于指示缺损区域,0表示已知区域,已知区域不会进行改变;⊙在这里表示逐点相乘;
在t次迭代优化的情形下,对应的残差信息的预测公式为:
其中,在二值掩码所指定的修复区域中,上一次的修复结果和本次预测的残差信息会进行相加,而已知区域重用原来的输入信息而不进行改变。
6.根据权利要求1所述的基于迭代残差学习的少样本图像修复方法,其特征在于,在所述步骤S3中,在输入信息输入到伪造补丁鉴别器E(·)之后,E(·)输出大小为w′×h′的二维张量;二维张量的每一个点,都对应了切片范围为E(·)感受野大小(N×n)所对应切片的置信度,即该图像切片有多大的程度被认为是真实样本的图像切片;在计算伪造补丁生成对抗损失之前,首先构造对应的标签图其尺度大小和E(·)输出一样;首先利用E(·)的感受野,将输入的二值掩码和图片根据感受野进行裁剪;得到裁剪后的子切片Ra,b和1≤a≤h′,1≤b≤m′;对应的标签图的构造公式为:
如果的值不为0,说明对应的子切片Ra,b区域中包含了生成的像素点,即可认为该切片为伪造切片;反之,该切片被认为是真实切片;所以对应的Xa,b=1就表示对应的感受野区域下的切片为伪造切片,Xa,b=0即认为是真实的切片;
对应的伪造补丁生成对抗损失的计算公式如下:
7.根据权利要求1所述的基于迭代残差学习的少样本图像修复方法,其特征在于,在所述步骤S3中,将映射空间生成对抗损失、伪造补丁生成对抗损失和感知损失进行共同约束,得到了对生成器的最终目标函数的公式为:
其中,θg,θd和θe分别表示生成器网络、映射空间鉴别器网络、伪造补丁鉴别器网络的参数;通过将生成器网络、映射空间鉴别器网络和伪造补丁鉴别器网络进行联合训练,其公式如下:
即,首先分别优化映射空间鉴别器网络D(·)和伪造补丁鉴别器网络E(·)中的参数;然后再优化生成器网络G(·)中的参数;在推理过程中,生成器网络G(·)通过多次迭代优化,来实现基于残差学习的图像修复;鉴别器网络用于在训练期间分辨真假样本,通过生成对抗的方式使得模型能够学习到真实样本的分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470483.2A CN115937022A (zh) | 2022-11-23 | 2022-11-23 | 一种基于迭代残差学习的少样本图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211470483.2A CN115937022A (zh) | 2022-11-23 | 2022-11-23 | 一种基于迭代残差学习的少样本图像修复方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115937022A true CN115937022A (zh) | 2023-04-07 |
Family
ID=86549787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211470483.2A Pending CN115937022A (zh) | 2022-11-23 | 2022-11-23 | 一种基于迭代残差学习的少样本图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115937022A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311482A (zh) * | 2023-05-23 | 2023-06-23 | 中国科学技术大学 | 人脸伪造检测方法、系统、设备及存储介质 |
CN116757965A (zh) * | 2023-08-16 | 2023-09-15 | 小米汽车科技有限公司 | 图像增强方法、装置和存储介质 |
-
2022
- 2022-11-23 CN CN202211470483.2A patent/CN115937022A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311482A (zh) * | 2023-05-23 | 2023-06-23 | 中国科学技术大学 | 人脸伪造检测方法、系统、设备及存储介质 |
CN116311482B (zh) * | 2023-05-23 | 2023-08-29 | 中国科学技术大学 | 人脸伪造检测方法、系统、设备及存储介质 |
CN116757965A (zh) * | 2023-08-16 | 2023-09-15 | 小米汽车科技有限公司 | 图像增强方法、装置和存储介质 |
CN116757965B (zh) * | 2023-08-16 | 2023-11-21 | 小米汽车科技有限公司 | 图像增强方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135254A1 (zh) | 车牌号码识别方法、装置、电子设备及存储介质 | |
Kim et al. | Fully deep blind image quality predictor | |
Li et al. | No-reference image quality assessment with deep convolutional neural networks | |
CN115937022A (zh) | 一种基于迭代残差学习的少样本图像修复方法 | |
Zhang et al. | Data-driven single image deraining: A comprehensive review and new perspectives | |
CN112560831B (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
Huang et al. | Selective wavelet attention learning for single image deraining | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN116824307B (zh) | 基于sam模型的图像标注方法、装置及相关介质 | |
CN104751485B (zh) | 一种基于gpu自适应的前景提取方法 | |
CN114694039B (zh) | 一种遥感高光谱与激光雷达图像融合分类方法及装置 | |
CN113378775B (zh) | 一种基于深度学习的视频阴影检测与消除方法 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN114494786A (zh) | 一种基于多层协调卷积神经网络的细粒度图像分类方法 | |
CN112884657B (zh) | 一种人脸超分辨率重建方法及系统 | |
Liu et al. | Combined CNN/RNN video privacy protection evaluation method for monitoring home scene violence | |
Bian | An ensemble image quality assessment algorithm based on deep feature clustering | |
CN116778165A (zh) | 基于多尺度自适应语义分割的遥感影像灾害检测方法 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
Zhao et al. | End‐to‐End Retinex‐Based Illumination Attention Low‐Light Enhancement Network for Autonomous Driving at Night | |
Dixit et al. | A Review of Single Image Super Resolution Techniques using Convolutional Neural Networks | |
Bairi et al. | PSCS-Net: Perception optimized image reconstruction network for autonomous driving systems | |
Wang et al. | Spatially adaptive losses for video super-resolution with GANs | |
Grüning et al. | Fp-nets for blind image quality assessment | |
Li et al. | Human Detection via Image Denoising for 5G‐Enabled Intelligent Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |