CN115829876A - 一种基于交叉注意力机制的真实退化图像盲修复方法 - Google Patents

一种基于交叉注意力机制的真实退化图像盲修复方法 Download PDF

Info

Publication number
CN115829876A
CN115829876A CN202211616971.XA CN202211616971A CN115829876A CN 115829876 A CN115829876 A CN 115829876A CN 202211616971 A CN202211616971 A CN 202211616971A CN 115829876 A CN115829876 A CN 115829876A
Authority
CN
China
Prior art keywords
image
potential
loss
attention mechanism
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211616971.XA
Other languages
English (en)
Inventor
霍智勇
胡山林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211616971.XA priority Critical patent/CN115829876A/zh
Publication of CN115829876A publication Critical patent/CN115829876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Processing (AREA)

Abstract

本发明属于图像处理技术领域,具体地说,是一种基于交叉注意力机制的真实退化图像盲修复方法,通过引入注意力机制,对潜在编码进行多头自注意力优化,实现了最优潜在编码的语义特征权重分配;对潜在编码和多分辨率尺度特征图两者使用多头交叉注意力优化,实现了将多尺度特征图的空间特征引入潜在编码,增强了特征图的空间特征与潜在编码的语义特征的相关性,显著提高了潜在编码的表达能力,解决了重建图像忠实度不高和纹理细节不够丰富这个关键问题。

Description

一种基于交叉注意力机制的真实退化图像盲修复方法
技术领域
本发明属于计算机视觉领域,具体地说,是一种基于交叉注意力机制的真实退化图像盲修复方法。
背景技术
随着时代与科技的进步,图像处理技术已广泛应用于现代社会的各种领域,而图像修复作为其中的一大领域,有着广泛的应用。图像在生成、传输以及存储的每个过程,因为成像系统和数字成像设备自身限制以及成像过程易受到各种外部环境的干扰,导致图像中的信息丢失,获得退化图像。例如,相机与景物之间存在相对运动导致运动模糊;聚焦不准导致撒焦模糊;太阳辐射和大气湍流造成的高斯模糊;成像系统中一直存在的噪声干扰;各种压缩失真等图像退化方式。因此,如何在无监督情况下,对真实退化图像进行盲修复一直都是图像处理的一个热门研究点。
图像的盲修复是指在只利用原始的退化模糊图像的情况下,来预估点扩散函数和高清晰原图像的一种图像修复方法。传统的线性图像修复算法都需在明确图像退化方式的情况下,专门设计对应的逆退化函数,进行退化图像的修复,在面对复杂退化且未知种类的情况下,传统算法效率和实用性差。目前用于退化图像盲修复的主要方法有:基于编码器优化的方案、基于潜在编码优化的方案和基于潜在空间嵌入的方案。在基于编码器优化的方案中,将生成对抗网络(Generative Adversarial Network,GAN)和编码器联合训练,让编码器学习如何将图像映射到GAN的潜在空间,但存在编码器过拟合问题,造成重建图像与输入图像的结构差异大,尤其是真实世界图像,模型的泛化能力很弱,且联合训练导致网络参数量巨大。在基于潜在编码优化的方案中,通过梯度下降法来迭代优化出真实图像在潜在空间对应的最优潜在编码,实现输入和重建图像之间的逐像素损失最小,但是需对每张输入图像进行多次迭代优化,花费资源巨大且效率极低。基于潜在空间嵌入的方案是目前的最优解,能在利用编码器较快实现潜在编码映射的基础上又能迭代出较优的潜在编码,在GAN生成过程中嵌入优化的潜在编码,大幅提升了重建的图像质量和效率,但是重建图像纹理容易过度平滑,缺少高频细节且存在局部人工伪影,导致重建图像忠实度不足。
此外,由编码器或梯度下降法迭代优化而产生的潜在编码,潜在编码中语义特征仍然重度耦合,其语义特征信息的表达能力不足,导致生成的重建图像整体结构不自然,局部区域易产生人工伪影,且纹理上容易过度平滑,缺失高频细节特征信息,造成重建图像忠实度不高且纹理细节不够丰富;通常在有监督或半监督的情况下进行训练和使用,训练集是高质量清晰图像,在实际应用情况下,对于真实退化的模糊图像的盲修复效果很差,无法在无监督的情况下进行盲修复。
发明内容
为了解决上述问题,本发明披露了一种基于交叉注意力机制的真实退化图像盲修复方法,通过引入注意力机制,对潜在编码进行多头自注意力优化,实现了最优潜在编码的语义特征权重分配;对潜在编码和多分辨率尺度特征图两者使用多头交叉注意力优化,实现了将多尺度特征图的空间特征引入潜在编码,增强了特征图的空间特征与潜在编码的语义特征的相关性,显著提高了潜在编码的语义特征表达能力,解决了重建图像忠实度不高和纹理细节不够丰富这个关键问题。
本发明采用的具体技术方案如下:
一种基于交叉注意力机制的真实退化图像盲修复方法,包括如下步骤:
步骤1:获取用于训练的高度退化图像数据集;
步骤2:对步骤1中的训练数据集进行预处理,进行尺度缩放,生成图像的标签;
步骤3:使用U-Net中的编码器,对输入的图像进行潜在编码映射,得到初步的潜在编码,其与W+潜在编码的维度一致;
步骤4:使用U-Net中的解码器,生成多分辨率尺度的特征图;
步骤5:利用注意力机制对步骤3、4中生成的潜在编码和多尺度特征图进行优化处理,对潜在编码使用多头自注意力机制优化,优化编码器对潜在编码中语义特征的选择,将特征图作为查询匹配的信息源而潜在编码作为查询标志,使用多头交叉注意力机制将特征图中的空间特征引入潜在编码中,增强特征图的局部细节和全局上下文一致性,完成对潜在编码的优化以提高其语义表达能力;
步骤6:把经过步骤5优化后的潜码作为输入送入预训练StyleGAN2生成器,并将步骤4中多尺度特征图嵌入到StyleGAN2生成过程的对应生成层中,实现对预训练生成器潜在空间的嵌入扩展,然后得到重建的图像;
步骤7:使用感知损失、像素级损失、对抗性损失及频率域损失等多种损失函数对输入图像的GT和重建图像进行损失值计算,对网络进行反向传播处理,进行网络超参数迭代优化,最终得到训练好的模型;
步骤8:基于训练好的模型对真实退化的模糊图像的进行盲修复重建,将模糊图像送入步骤7训练好的模型进行盲修复以得到高质量且忠实度高的重建图像。
本发明的进一步改进,步骤1中的用于训练的模糊数据集是使用不同种类模糊核、下采样模糊、JPEG压缩失真和加入噪声等不同退化方式进行混合组合来生成的,退化公式如下:
Figure BDA0004000480360000031
其中
Figure BDA0004000480360000032
为生成的高度退化模糊图像,
Figure BDA0004000480360000033
为高质量图像,
Figure BDA0004000480360000034
为卷积运算,
Figure BDA0004000480360000035
为模糊核(高斯模糊核或各向异性模糊核),r为下采样比例因子,
Figure BDA0004000480360000036
为加性高斯噪声,JPEGq为确定质量因子q的JPEG压缩。
本发明的进一步改进,步骤3和4中U-Net的编、解码器中每一编、解码块层(其中编码块层为下采样操作、解码块层为上采样操作)都为残差连接结构,其中主干由卷积核大小为3*3和1*1的卷积层组合,而分支为卷积核大小为3*3卷积层,最终生成的潜在编码维度为16*512。
本发明的进一步改进,步骤4中生成的多分辨率尺度特征图都进行了尺度和平移处理,其中进行尺度处理的卷积层中卷积核大小为3*3,进行平移处理的卷积层中卷积核大小为1*1。
本发明的进一步改进,步骤5中对步骤3、4中生成的初步16*512维潜在编码和8*8*256-512*512*16多尺度特征图使用注意力机制进行优化,其中对潜在编码使用多头自注意力机制优化,将特征图作为查询匹配的信息源而潜在编码作为查询标志,对潜在编码和多尺度特征图之间使用多头交叉注意力机制优化,将多尺度特征图中的空间特征引入潜在编码中,增强特征图的局部细节和全局上下文一致性,完成对潜在编码的优化以提高其语义表达能力。
多头交叉注意力公式与多头自注意力公式相似,不同的是在多头自注意力中使用潜在编码生成Q、K和V,而在多头交叉注意力中使用多尺度特征图生成K和V,使用潜在编码生成Q,其中多头自注意力公式如下:
Figure BDA0004000480360000037
Figure BDA0004000480360000041
MHA(Q,K,V)=[Attention(Q,K,V)]h=1:HWO
上述为多头自注意力机制公式,其中Q为query矩阵,K为keys矩阵,V为values矩阵,q为512维查询tokens,
Figure BDA0004000480360000042
为查询tokens的集和,
Figure BDA0004000480360000043
Figure BDA0004000480360000044
Figure BDA0004000480360000045
且都是自注意力模块中的可学习映射矩阵,H为注意力头数量,d为特征维度且等于512/H,
Figure BDA0004000480360000046
也是可学习映射矩阵,进行最后结果的融合操作。
本发明的进一步改进,步骤6中的预训练StyleGAN2的输入为步骤5中优化后的16*512维潜在编码,且在StyleGAN2生成过程中嵌入的8*8*256-512*512*16多尺度特征图为步骤4中经过尺度和平移处理的多尺度特征图。
本发明的进一步改进,步骤7中对输入图像的GT和重建图像进行损失函数进行组合计算损失,其中组合包含基于VGG-19的感知损失、MSE的逐像素损失、对抗性损失及FFT的频率域损失共同组成,其中损失函数定义如下:
Figure BDA0004000480360000047
上述为感知损失函数,其中
Figure BDA0004000480360000048
为重建图像,I∈RH*W*C为参考GT图像,H代表图像的高度,W代表图像的宽度,C代表RGB三通道,本发明中I,
Figure BDA0004000480360000049
Φ为预训练的VGG-19网络,在实验中选择未经过LeakyReLU激活函数的conv1_2、conv2_2、conv3_2至conv7_2共7层输出,
Figure BDA00040004803600000410
为对VGG-19网络输出进行L1范数运算,其中Lmse均方根损失函数定义如下:
Figure BDA00040004803600000411
上述为均方根损失函数,其中G代表预训练的StyleGAN2生成器,W代表16*512维的潜在编码,N是图像的中的标量即等于N=H*W*C,其中Ladv对抗性损失函数定义如下:
Figure BDA00040004803600000412
上述为对抗性损失函数,
Figure BDA00040004803600000413
代表对重建图像进行编码映射的公式缩写,D为StyleGAN2的鉴定器,softplus为ReLU激活函数的平滑近似法,用于限制输出永远为正。其中Lfft频率域损失函数定义如下:
Figure BDA0004000480360000051
上述为频率域损失函数,其中,
Figure BDA0004000480360000052
为U-Net中生成的特征图,i为多分辨率尺度特征图中的第i层,ti为生成的特征图累计总层数,
Figure BDA0004000480360000053
为快速傅里叶变换操作。总的损失函数组合以及各损失权重比例如下:
Ltotal=λperLpermseLmseadvLadvfftLfft
上述为总的损失函数,以上每一项前的λ*为对应的损失函数比例系数,分别为10:2:2:1,其中,λperLper为基于VGG-19网络的感知损失函数,λmseLmse为均方根损失函数,λadvLadv为对抗性损失函数,λfftLfft为FFT的高频损失函数。
本发明的有益效果:本发明通过将多种退化方式进行随机组合以生成高度退化的模糊图像训练集,逼真模拟了真实世界的图像的复杂退化情况,提高了模型在各种实际应用中的泛化能力,实现了在无监督情况下的真实退化图像盲修复任务;本发明引入了频率域的FFT损失函数来增强模型对高频特征信息的关注,让重建图像的纹理和局部细节更加丰富,传统的损失函数通常选择MSE损失函数、感知损失函数和正则化损失函数,导致模型对于低频的特征信息更加关注,从而造成结果纹理过度平滑。
附图说明
图1是本发明模型总体框架示意图。
图2是本发明中Transformer块示意图。
图3是本发明中多尺度特征图嵌入StyleGAN2生成过程中间层的示意图。
图4是本发明的实验结果对比图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
一种基于交叉注意力机制的真实退化图像盲修复方法,包括如下步骤:
步骤1:获取用于训练的高度退化图像数据集:
使用不同种类模糊核、下采样模糊、JPEG压缩失真和加入噪声等不同退化方式进行混合组合来生成的,退化公式如下:
Figure BDA0004000480360000054
其中
Figure BDA00040004803600000612
为生成的高度退化模糊图像,
Figure BDA0004000480360000061
为高质量图像,
Figure BDA0004000480360000062
为卷积运算,
Figure BDA0004000480360000063
为模糊核(高斯模糊核或各向异性模糊核),r为下采样比例因子,
Figure BDA0004000480360000064
为加性高斯噪声,JPEGq为确定质量因子q的JPEG压缩。
步骤2:对步骤1中的训练数据集进行预处理,进行尺度缩放,生成图像的标签。
步骤3:使用U-Net中的编码器,对输入的图像进行潜在编码映射,得到初步的潜在编码,其与W+潜在编码的维度一致;
步骤4:使用U-Net中的解码器,生成多分辨率尺度的特征图;
在上述步骤3和步骤4中U-Net的编、解码器中每一编、解码块层都为残差连接结构,其中主干由卷积核大小为3*3和1*1的卷积层组合,而分支为卷积核大小为3*3卷积层,最终生成的潜在编码维度为16*512;步骤4中生成的多分辨率尺度特征图都进行了尺度和平移处理,其中进行尺度处理的卷积层中卷积核大小为3*3,进行平移处理的卷积层中卷积核大小为1*1。
步骤5:对步骤3和步骤4中生成的初步16*512维潜在编码和8*8*256-512*512*16多尺度特征图使用注意力机制进行优化,其中对潜在编码使用多头自注意力机制优化,将特征图作为查询匹配的信息源而潜在编码作为查询标志,对潜在编码和多尺度特征图之间使用多头交叉注意力机制优化,将多尺度特征图中的空间特征引入潜在编码中,增强特征图的局部细节和全局上下文一致性,完成对潜在编码的优化以提高其语义表达能力;
其中,上述多头自注意力中使用潜在编码生成Q、K和V,而在多头交叉注意力中使用多尺度特征图生成K和V,使用潜在编码生成Q,其中多头自注意力公式如下:
Figure BDA0004000480360000065
Figure BDA0004000480360000066
MHA(Q,K,V)=[Attention(Q,K,V)]h=1:HWO
在上述公式中,其中Q为query矩阵,K为keys矩阵,V为values矩阵,q为512维查询tokens,
Figure BDA0004000480360000067
为查询tokens的集和,
Figure BDA0004000480360000068
Figure BDA0004000480360000069
Figure BDA00040004803600000610
且都是自注意力模块中的可学习映射矩阵,H为注意力头数量,d为特征维度且等于512/H,
Figure BDA00040004803600000611
也是可学习映射矩阵,进行最后结果的融合操作。
步骤6:把经过步骤5优化后的潜码作为输入送入预训练StyleGAN2生成器,并将步骤4中多尺度特征图嵌入到StyleGAN2生成过程的对应生成层中,实现对预训练生成器潜在空间的嵌入扩展,然后得到重建的图像:预训练StyleGAN2的输入为步骤5中优化后的16*512维潜在编码,且在StyleGAN2生成过程中嵌入的8*8*256-512*512*16多尺度特征图为步骤4中经过尺度和平移处理的多尺度特征图。
步骤7:使用感知损失、像素级损失、对抗性损失及频率域损失等多种损失函数对输入图像的GT和重建图像进行损失值计算,对网络进行反向传播处理,进行网络超参数迭代优化,最终得到训练好的模型;对输入图像的GT和重建图像进行损失函数进行组合计算损失,其中组合包含基于VGG-19的感知损失、MSE的逐像素损失、对抗性损失及FFT的频率域损失共同组成,其中各部分损失函数定义如下:
Figure BDA0004000480360000071
在上述感知损失函数中,
Figure BDA0004000480360000072
为重建图像,I∈RH*W*C为参考GT图像,H代表图像的高度,W代表图像的宽度,C代表RGB三通道,本发明中I,
Figure BDA0004000480360000073
Φ为预训练的VGG-19网络,在实验中选择未经过LeakyReLU激活函数的conv1_2、conv2_2、conv3_2至conv7_2共7层输出,
Figure BDA0004000480360000074
对VGG-19网络输出进行L1范数运算。
Figure BDA0004000480360000075
在上述均方根损失函数中,G代表预训练的StyleGAN2生成器,W代表16*512维的潜在编码,N是图像的中的标量即等于N=H*W*C。
Figure BDA0004000480360000076
在上述对抗性损失函数中,
Figure BDA0004000480360000077
代表对重建图像进行编码映射的公式缩写,D为StyleGAN2的鉴定器,softplus为ReLU激活函数的平滑近似法,用于限制输出永远为正。
Figure BDA0004000480360000078
在上述频率域损失函数中,
Figure BDA0004000480360000079
为U-Net中生成的特征图,i为多分辨率尺度特征图中的第i层,ti为生成的特征图累计总层数,
Figure BDA00040004803600000710
为快速傅里叶变换操作。
Ltotal=λperLpermseLmseadvLadvfftLfft
在上述总的损失函数中,每一项前的λ*为对应的损失函数比例系数,分别为10:2:2:1,其中,λperLper为基于VGG-19网络的感知损失函数,λmseLmse为均方根损失函数,λadvLadv为对抗性损失函数,λfftLfft为FFT的高频损失函数。
步骤8:基于训练好的模型对真实退化的模糊图像的进行盲修复重建,将模糊图像送入步骤7训练好的模型进行盲修复以得到高质量且忠实度高的重建图像。
如图4所示,将真实世界高度退化的模糊图像送入步骤7中的训练好的模型中,生成的重建修复图像拥有更自然的人脸结构和更丰富的局部纹理细节,且忠实度很高。如图4所示,实验结果将与目前盲修复领域中最好的GFPGAN模型进行对比,其中,第一列中婴儿的耳朵区域,第二列中女子的眼睛瞳孔区域,第三列中男孩手臂与脸上的痣,第四列中男子的眼角皱纹与嘴部形状,本发明的重建图像比GFPGAN在上述高频细节区域的生成质量更优秀,并且每列图像中脸部的双眼皮、嘴唇上纹理这些区域,本发明比GFPGAN拥有更丰富的细节。证明了本发明的盲恢复重建图像拥有更丰富的纹理细节且整体结构自然,输入图像与重建图像拥有更高的忠实度。
在上述实施例中,图1中编解码器内部使用类似的残差连接操作或者使用Transformer编码块完成相同任务;图2中注意力机制选择替换种类,例如将多头交叉注意力换成交叉注意力、多头自注意力换成自注意力或通道注意力等等,但是操作目的相同;图3中的多尺度特征图嵌入中,对通道分割操作加上通道注意力机制或其他操作来达到最佳通道分割目的,这也是同样的对通道进行按比例分割。
以上所述为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,包括如下步骤:
步骤1:获取用于训练的高度退化图像数据集;
步骤2:对步骤1中的训练数据集进行预处理,进行尺度缩放,生成图像的标签;
步骤3:使用U-Net中的编码器,对输入的图像进行潜在编码映射,得到初步的潜在编码,其与W+潜在编码的维度一致;
步骤4:使用U-Net中的解码器,生成多分辨率尺度的特征图;
步骤5:利用注意力机制对步骤3和4中生成的潜在编码和多尺度特征图进行优化处理,对潜在编码使用多头自注意力机制优化,优化编码器对潜在编码中语义特征的选择,将特征图作为查询匹配的信息源而潜在编码作为查询标志,使用多头交叉注意力机制将特征图中的空间特征引入潜在编码中,增强特征图的局部细节和全局上下文一致性,完成对潜在编码的优化以提高其语义表达能力;
步骤6:把经过步骤5优化后的潜码作为输入送入预训练StyleGAN2生成器,并将步骤4中多尺度特征图嵌入到StyleGAN2生成过程的对应生成层中,实现对预训练生成器潜在空间的嵌入扩展,然后得到重建的图像;
步骤7:使用损失函数对输入图像的GT和重建图像进行损失值计算,对网络进行反向传播处理,进行网络超参数迭代优化,最终得到训练好的模型;
步骤8:基于训练好的模型对真实退化的模糊图像的进行盲修复重建,将模糊图像送入步骤7训练好的模型进行盲修复以得到高质量且忠实度高的重建图像。
2.根据权利要求1所述的基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,所述步骤1中的用于训练的模糊数据集是使用不同种类的退化方式进行混合组合来生成的,退化公式如下:
Figure FDA0004000480350000011
其中
Figure FDA0004000480350000012
为生成的高度退化模糊图像,
Figure FDA0004000480350000013
为高质量图像,
Figure FDA0004000480350000014
为卷积运算,
Figure FDA0004000480350000015
为模糊核,r为下采样比例因子,
Figure FDA0004000480350000016
为加性高斯噪声,JPEGq为确定质量因子q的JPEG压缩。
3.根据权利要求1所述的基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,所述步骤3和步骤4中U-Net的编、解码器中每一编、解码块层都为残差连接结构,其中主干由卷积核大小为3*3和1*1的卷积层组合,而分支为卷积核大小为3*3卷积层,最终生成的潜在编码维度为16*512。
4.根据权利要求3所述的基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,所述步骤4中生成的多分辨率尺度特征图都进行了尺度和平移处理,其中进行尺度处理的卷积层中卷积核大小为3*3,进行平移处理的卷积层中卷积核大小为1*1。
5.根据权利要求4所述的基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,所述步骤5中对步骤3和4中生成的初步16*512维潜在编码和8*8*256-512*512*16多尺度特征图使用注意力机制进行优化,其中对潜在编码使用多头自注意力机制优化,将特征图作为查询匹配的信息源而潜在编码作为查询标志,对潜在编码和多尺度特征图之间使用多头交叉注意力机制优化,将多尺度特征图中的空间特征引入潜在编码中,增强特征图的局部细节和全局上下文一致性,完成对潜在编码的优化以提高其语义表达能力。
6.根据权利要求5所述的基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,所述步骤5中,多头自注意力中使用潜在编码生成Q、K和V,其公式如下:
Figure FDA0004000480350000021
Figure FDA0004000480350000022
MHA(Q,K,V)=[Attention(Q,K,V)]h=1:HWO
其中,Q为query矩阵,K为keys矩阵,V为values矩阵,q为512维查询tokens,
Figure FDA0004000480350000023
为查询tokens的集和,
Figure FDA0004000480350000024
Figure FDA0004000480350000025
Figure FDA0004000480350000026
且都是自注意力模块中的可学习映射矩阵,H为注意力头数量,d为特征维度且等于512/H,
Figure FDA0004000480350000027
Figure FDA0004000480350000028
也是可学习映射矩阵,进行最后结果的融合操作。
7.根据权利要求6所述的基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,所述步骤6中的预训练StyleGAN2的输入为步骤5中优化后的16*512维潜在编码,且在StyleGAN2生成过程中嵌入的8*8*256-512*512*16多尺度特征图为步骤4中经过尺度和平移处理的多尺度特征图。
8.根据权利要求7所述的基于交叉注意力机制的真实退化图像盲修复方法,其特征在于,所述步骤7中对输入图像的GT和重建图像进行损失函数进行组合计算损失,其中组合包含基于VGG-19的感知损失、MSE的逐像素损失、对抗性损失及FFT的频率域损失共同组成,其中Lper感知损失函数定义如下:
Figure FDA0004000480350000031
其中,
Figure FDA0004000480350000032
为重建图像,I∈RH*W*C为参考GT图像,H代表图像的高度,W代表图像的宽度,C代表RGB三通道,I、
Figure FDA0004000480350000033
Φ为预训练的VGG-19网络,在实验中选择未经过LeakyReLU激活函数的conv1_2、conv2_2、conv3_2至conv7_2共7层输出,
Figure FDA0004000480350000034
为对VGG-19网络输出进行L1范数运算,其中Lmse均方根损失函数定义如下:
Figure FDA0004000480350000035
其中,G代表预训练的StyleGAN2生成器,W代表16*512维的潜在编码,N是图像的中的标量即等于N=H*W*C,其中Ladv对抗性损失函数定义如下:
Figure FDA0004000480350000036
其中,
Figure FDA0004000480350000037
代表对重建图像进行编码映射的公式缩写,D为StyleGAN2的鉴定器,softplus为ReLU激活函数的平滑近似法,用于限制输出永远为正,其中Lfft频率域损失函数定义如下:
Figure FDA0004000480350000038
其中,
Figure FDA0004000480350000039
为U-Net中生成的特征图,i为多分辨率尺度特征图中的第i层,ti为生成的特征图累计总层数,
Figure FDA00040004803500000310
为快速傅里叶变换操作,总的损失函数组合以及各损失权重比例如下:
Ltotal=λperLpermseLmseadvLadvfftLfft
以上每一项前的λ*为对应的损失函数比例系数,分别为10:2:2:1,其中,λperLper为基于VGG-19网络的感知损失函数,λmseLmse为均方根损失函数,λadvLadv为对抗性损失函数,λfftLfft为FFT的高频损失函数。
CN202211616971.XA 2022-12-15 2022-12-15 一种基于交叉注意力机制的真实退化图像盲修复方法 Pending CN115829876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211616971.XA CN115829876A (zh) 2022-12-15 2022-12-15 一种基于交叉注意力机制的真实退化图像盲修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211616971.XA CN115829876A (zh) 2022-12-15 2022-12-15 一种基于交叉注意力机制的真实退化图像盲修复方法

Publications (1)

Publication Number Publication Date
CN115829876A true CN115829876A (zh) 2023-03-21

Family

ID=85547519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211616971.XA Pending CN115829876A (zh) 2022-12-15 2022-12-15 一种基于交叉注意力机制的真实退化图像盲修复方法

Country Status (1)

Country Link
CN (1) CN115829876A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597267A (zh) * 2023-07-12 2023-08-15 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN116843553A (zh) * 2023-07-11 2023-10-03 太原理工大学 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法
CN117034982A (zh) * 2023-10-10 2023-11-10 成都新西旺自动化科技有限公司 一种具有自动修复功能的二维码识别方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843553A (zh) * 2023-07-11 2023-10-03 太原理工大学 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法
CN116843553B (zh) * 2023-07-11 2024-01-02 太原理工大学 一种基于核不确定学习和退化嵌入的盲超分辨率重建方法
CN116597267A (zh) * 2023-07-12 2023-08-15 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN116597267B (zh) * 2023-07-12 2023-09-29 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN117034982A (zh) * 2023-10-10 2023-11-10 成都新西旺自动化科技有限公司 一种具有自动修复功能的二维码识别方法和装置
CN117034982B (zh) * 2023-10-10 2023-12-29 成都新西旺自动化科技有限公司 一种具有自动修复功能的二维码识别方法和装置

Similar Documents

Publication Publication Date Title
Wang et al. Esrgan: Enhanced super-resolution generative adversarial networks
CN113240613B (zh) 一种基于边缘信息重建的图像修复方法
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN115829876A (zh) 一种基于交叉注意力机制的真实退化图像盲修复方法
CN109584325B (zh) 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法
CN110363068B (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
CN115393186A (zh) 一种人脸图像超分辨率重建方法、系统、设备及介质
CN116958534A (zh) 一种图像处理方法、图像处理模型的训练方法和相关装置
Yang et al. A survey of super-resolution based on deep learning
CN114841859A (zh) 基于轻量神经网络和Transformer的单图像超分辨率重建方法
Liu et al. Facial image inpainting using multi-level generative network
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN113947538A (zh) 一种多尺度高效卷积自注意力单幅图像除雨方法
CN113379606A (zh) 一种基于预训练生成模型的人脸超分辨方法
CN112785502A (zh) 一种基于纹理迁移的混合相机的光场图像超分辨率方法
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN116823647A (zh) 基于快速傅里叶变换和选择性注意力机制的图像补全方法
CN116703719A (zh) 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法
CN116109510A (zh) 一种基于结构和纹理对偶生成的人脸图像修复方法
CN113344786B (zh) 基于几何生成模型的视频转码方法、装置、介质和设备
CN114331894A (zh) 一种基于潜在特征重构和掩模感知的人脸图像修复方法
Yang Super resolution using dual path connections
CN113538236A (zh) 一种基于生成对抗网络的图像超分辨率重构方法
CN114022362A (zh) 一种基于金字塔注意力机制和对称网络的图像超分辨率方法
CN113628114A (zh) 一种双通道稀疏编码的图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination