CN115829876A

CN115829876A - 一种基于交叉注意力机制的真实退化图像盲修复方法

Info

Publication number: CN115829876A
Application number: CN202211616971.XA
Authority: CN
Inventors: 霍智勇; 胡山林
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-21

Abstract

本发明属于图像处理技术领域，具体地说，是一种基于交叉注意力机制的真实退化图像盲修复方法，通过引入注意力机制，对潜在编码进行多头自注意力优化，实现了最优潜在编码的语义特征权重分配；对潜在编码和多分辨率尺度特征图两者使用多头交叉注意力优化，实现了将多尺度特征图的空间特征引入潜在编码，增强了特征图的空间特征与潜在编码的语义特征的相关性，显著提高了潜在编码的表达能力，解决了重建图像忠实度不高和纹理细节不够丰富这个关键问题。

Description

一种基于交叉注意力机制的真实退化图像盲修复方法

技术领域

本发明属于计算机视觉领域，具体地说，是一种基于交叉注意力机制的真实退化图像盲修复方法。

背景技术

随着时代与科技的进步，图像处理技术已广泛应用于现代社会的各种领域，而图像修复作为其中的一大领域，有着广泛的应用。图像在生成、传输以及存储的每个过程，因为成像系统和数字成像设备自身限制以及成像过程易受到各种外部环境的干扰，导致图像中的信息丢失，获得退化图像。例如，相机与景物之间存在相对运动导致运动模糊；聚焦不准导致撒焦模糊；太阳辐射和大气湍流造成的高斯模糊；成像系统中一直存在的噪声干扰；各种压缩失真等图像退化方式。因此，如何在无监督情况下，对真实退化图像进行盲修复一直都是图像处理的一个热门研究点。

图像的盲修复是指在只利用原始的退化模糊图像的情况下，来预估点扩散函数和高清晰原图像的一种图像修复方法。传统的线性图像修复算法都需在明确图像退化方式的情况下，专门设计对应的逆退化函数，进行退化图像的修复，在面对复杂退化且未知种类的情况下，传统算法效率和实用性差。目前用于退化图像盲修复的主要方法有：基于编码器优化的方案、基于潜在编码优化的方案和基于潜在空间嵌入的方案。在基于编码器优化的方案中，将生成对抗网络(Generative Adversarial Network，GAN)和编码器联合训练，让编码器学习如何将图像映射到GAN的潜在空间，但存在编码器过拟合问题，造成重建图像与输入图像的结构差异大，尤其是真实世界图像，模型的泛化能力很弱，且联合训练导致网络参数量巨大。在基于潜在编码优化的方案中，通过梯度下降法来迭代优化出真实图像在潜在空间对应的最优潜在编码，实现输入和重建图像之间的逐像素损失最小，但是需对每张输入图像进行多次迭代优化，花费资源巨大且效率极低。基于潜在空间嵌入的方案是目前的最优解，能在利用编码器较快实现潜在编码映射的基础上又能迭代出较优的潜在编码，在GAN生成过程中嵌入优化的潜在编码，大幅提升了重建的图像质量和效率，但是重建图像纹理容易过度平滑，缺少高频细节且存在局部人工伪影，导致重建图像忠实度不足。

此外，由编码器或梯度下降法迭代优化而产生的潜在编码，潜在编码中语义特征仍然重度耦合，其语义特征信息的表达能力不足，导致生成的重建图像整体结构不自然，局部区域易产生人工伪影，且纹理上容易过度平滑，缺失高频细节特征信息，造成重建图像忠实度不高且纹理细节不够丰富；通常在有监督或半监督的情况下进行训练和使用，训练集是高质量清晰图像，在实际应用情况下，对于真实退化的模糊图像的盲修复效果很差，无法在无监督的情况下进行盲修复。

发明内容

为了解决上述问题，本发明披露了一种基于交叉注意力机制的真实退化图像盲修复方法，通过引入注意力机制，对潜在编码进行多头自注意力优化，实现了最优潜在编码的语义特征权重分配；对潜在编码和多分辨率尺度特征图两者使用多头交叉注意力优化，实现了将多尺度特征图的空间特征引入潜在编码，增强了特征图的空间特征与潜在编码的语义特征的相关性，显著提高了潜在编码的语义特征表达能力，解决了重建图像忠实度不高和纹理细节不够丰富这个关键问题。

本发明采用的具体技术方案如下：

一种基于交叉注意力机制的真实退化图像盲修复方法，包括如下步骤：

步骤1：获取用于训练的高度退化图像数据集；

步骤2：对步骤1中的训练数据集进行预处理，进行尺度缩放，生成图像的标签；

步骤3：使用U-Net中的编码器，对输入的图像进行潜在编码映射，得到初步的潜在编码，其与W+潜在编码的维度一致；

步骤4：使用U-Net中的解码器，生成多分辨率尺度的特征图；

步骤5：利用注意力机制对步骤3、4中生成的潜在编码和多尺度特征图进行优化处理，对潜在编码使用多头自注意力机制优化，优化编码器对潜在编码中语义特征的选择，将特征图作为查询匹配的信息源而潜在编码作为查询标志，使用多头交叉注意力机制将特征图中的空间特征引入潜在编码中，增强特征图的局部细节和全局上下文一致性，完成对潜在编码的优化以提高其语义表达能力；

步骤6：把经过步骤5优化后的潜码作为输入送入预训练StyleGAN2生成器，并将步骤4中多尺度特征图嵌入到StyleGAN2生成过程的对应生成层中，实现对预训练生成器潜在空间的嵌入扩展，然后得到重建的图像；

步骤7：使用感知损失、像素级损失、对抗性损失及频率域损失等多种损失函数对输入图像的GT和重建图像进行损失值计算，对网络进行反向传播处理，进行网络超参数迭代优化，最终得到训练好的模型；

步骤8：基于训练好的模型对真实退化的模糊图像的进行盲修复重建，将模糊图像送入步骤7训练好的模型进行盲修复以得到高质量且忠实度高的重建图像。

本发明的进一步改进，步骤1中的用于训练的模糊数据集是使用不同种类模糊核、下采样模糊、JPEG压缩失真和加入噪声等不同退化方式进行混合组合来生成的，退化公式如下：

其中

为生成的高度退化模糊图像，

为高质量图像，

为卷积运算，

为模糊核(高斯模糊核或各向异性模糊核)，r为下采样比例因子，

为加性高斯噪声，JPEG_q为确定质量因子q的JPEG压缩。

本发明的进一步改进，步骤3和4中U-Net的编、解码器中每一编、解码块层(其中编码块层为下采样操作、解码块层为上采样操作)都为残差连接结构，其中主干由卷积核大小为3*3和1*1的卷积层组合，而分支为卷积核大小为3*3卷积层，最终生成的潜在编码维度为16*512。

本发明的进一步改进，步骤4中生成的多分辨率尺度特征图都进行了尺度和平移处理，其中进行尺度处理的卷积层中卷积核大小为3*3，进行平移处理的卷积层中卷积核大小为1*1。

本发明的进一步改进，步骤5中对步骤3、4中生成的初步16*512维潜在编码和8*8*256-512*512*16多尺度特征图使用注意力机制进行优化，其中对潜在编码使用多头自注意力机制优化，将特征图作为查询匹配的信息源而潜在编码作为查询标志，对潜在编码和多尺度特征图之间使用多头交叉注意力机制优化，将多尺度特征图中的空间特征引入潜在编码中，增强特征图的局部细节和全局上下文一致性，完成对潜在编码的优化以提高其语义表达能力。

多头交叉注意力公式与多头自注意力公式相似，不同的是在多头自注意力中使用潜在编码生成Q、K和V，而在多头交叉注意力中使用多尺度特征图生成K和V，使用潜在编码生成Q，其中多头自注意力公式如下：

MHA(Q，K，V)＝[Attention(Q,K,V)]_h＝1:HW^O

上述为多头自注意力机制公式，其中Q为query矩阵，K为keys矩阵，V为values矩阵，q为512维查询tokens，

为查询tokens的集和，

和

都

且都是自注意力模块中的可学习映射矩阵，H为注意力头数量，d为特征维度且等于512/H，

也是可学习映射矩阵，进行最后结果的融合操作。

本发明的进一步改进，步骤6中的预训练StyleGAN2的输入为步骤5中优化后的16*512维潜在编码，且在StyleGAN2生成过程中嵌入的8*8*256-512*512*16多尺度特征图为步骤4中经过尺度和平移处理的多尺度特征图。

本发明的进一步改进，步骤7中对输入图像的GT和重建图像进行损失函数进行组合计算损失，其中组合包含基于VGG-19的感知损失、MSE的逐像素损失、对抗性损失及FFT的频率域损失共同组成，其中损失函数定义如下：

上述为感知损失函数，其中

为重建图像，I∈R^H*W*C为参考GT图像，H代表图像的高度，W代表图像的宽度，C代表RGB三通道，本发明中I，

Φ为预训练的VGG-19网络，在实验中选择未经过LeakyReLU激活函数的conv1_2、conv2_2、conv3_2至conv7_2共7层输出，

为对VGG-19网络输出进行L1范数运算，其中L_mse均方根损失函数定义如下：

上述为均方根损失函数，其中G代表预训练的StyleGAN2生成器，W代表16*512维的潜在编码，N是图像的中的标量即等于N＝H*W*C，其中L_adv对抗性损失函数定义如下：

上述为对抗性损失函数，

代表对重建图像进行编码映射的公式缩写，D为StyleGAN2的鉴定器，softplus为ReLU激活函数的平滑近似法，用于限制输出永远为正。其中L_fft频率域损失函数定义如下：

上述为频率域损失函数，其中，

为U-Net中生成的特征图，i为多分辨率尺度特征图中的第i层，t_i为生成的特征图累计总层数，

为快速傅里叶变换操作。总的损失函数组合以及各损失权重比例如下：

L_total＝λ_perL_per+λ_mseL_mse+λ_advL_adv+λ_fftL_fft

上述为总的损失函数，以上每一项前的λ_*为对应的损失函数比例系数，分别为10：2：2：1，其中，λ_perL_per为基于VGG-19网络的感知损失函数，λ_mseL_mse为均方根损失函数，λ_advL_adv为对抗性损失函数，λ_fftL_fft为FFT的高频损失函数。

本发明的有益效果：本发明通过将多种退化方式进行随机组合以生成高度退化的模糊图像训练集，逼真模拟了真实世界的图像的复杂退化情况，提高了模型在各种实际应用中的泛化能力，实现了在无监督情况下的真实退化图像盲修复任务；本发明引入了频率域的FFT损失函数来增强模型对高频特征信息的关注，让重建图像的纹理和局部细节更加丰富，传统的损失函数通常选择MSE损失函数、感知损失函数和正则化损失函数，导致模型对于低频的特征信息更加关注，从而造成结果纹理过度平滑。

附图说明

图1是本发明模型总体框架示意图。

图2是本发明中Transformer块示意图。

图3是本发明中多尺度特征图嵌入StyleGAN2生成过程中间层的示意图。

图4是本发明的实验结果对比图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

步骤1：获取用于训练的高度退化图像数据集：

使用不同种类模糊核、下采样模糊、JPEG压缩失真和加入噪声等不同退化方式进行混合组合来生成的，退化公式如下：

其中

为生成的高度退化模糊图像，

为高质量图像，

为卷积运算，

为加性高斯噪声，JPEG_q为确定质量因子q的JPEG压缩。

步骤2：对步骤1中的训练数据集进行预处理，进行尺度缩放，生成图像的标签。

步骤4：使用U-Net中的解码器，生成多分辨率尺度的特征图；

在上述步骤3和步骤4中U-Net的编、解码器中每一编、解码块层都为残差连接结构，其中主干由卷积核大小为3*3和1*1的卷积层组合，而分支为卷积核大小为3*3卷积层，最终生成的潜在编码维度为16*512；步骤4中生成的多分辨率尺度特征图都进行了尺度和平移处理，其中进行尺度处理的卷积层中卷积核大小为3*3，进行平移处理的卷积层中卷积核大小为1*1。

步骤5：对步骤3和步骤4中生成的初步16*512维潜在编码和8*8*256-512*512*16多尺度特征图使用注意力机制进行优化，其中对潜在编码使用多头自注意力机制优化，将特征图作为查询匹配的信息源而潜在编码作为查询标志，对潜在编码和多尺度特征图之间使用多头交叉注意力机制优化，将多尺度特征图中的空间特征引入潜在编码中，增强特征图的局部细节和全局上下文一致性，完成对潜在编码的优化以提高其语义表达能力；

其中，上述多头自注意力中使用潜在编码生成Q、K和V，而在多头交叉注意力中使用多尺度特征图生成K和V，使用潜在编码生成Q，其中多头自注意力公式如下：

MHA(Q，K，V)＝[Attention(Q,K,V)]_h＝1:HW^O

在上述公式中，其中Q为query矩阵，K为keys矩阵，V为values矩阵，q为512维查询tokens，

为查询tokens的集和，

和

都

也是可学习映射矩阵，进行最后结果的融合操作。

步骤6：把经过步骤5优化后的潜码作为输入送入预训练StyleGAN2生成器，并将步骤4中多尺度特征图嵌入到StyleGAN2生成过程的对应生成层中，实现对预训练生成器潜在空间的嵌入扩展，然后得到重建的图像：预训练StyleGAN2的输入为步骤5中优化后的16*512维潜在编码，且在StyleGAN2生成过程中嵌入的8*8*256-512*512*16多尺度特征图为步骤4中经过尺度和平移处理的多尺度特征图。

步骤7：使用感知损失、像素级损失、对抗性损失及频率域损失等多种损失函数对输入图像的GT和重建图像进行损失值计算，对网络进行反向传播处理，进行网络超参数迭代优化，最终得到训练好的模型；对输入图像的GT和重建图像进行损失函数进行组合计算损失，其中组合包含基于VGG-19的感知损失、MSE的逐像素损失、对抗性损失及FFT的频率域损失共同组成，其中各部分损失函数定义如下：

在上述感知损失函数中，

对VGG-19网络输出进行L1范数运算。

在上述均方根损失函数中，G代表预训练的StyleGAN2生成器，W代表16*512维的潜在编码，N是图像的中的标量即等于N＝H*W*C。

在上述对抗性损失函数中，

代表对重建图像进行编码映射的公式缩写，D为StyleGAN2的鉴定器，softplus为ReLU激活函数的平滑近似法，用于限制输出永远为正。

在上述频率域损失函数中，

为快速傅里叶变换操作。

L_total＝λ_perL_per+λ_mseL_mse+λ_advL_adv+λ_fftL_fft

在上述总的损失函数中，每一项前的λ_*为对应的损失函数比例系数，分别为10：2：2：1，其中，λ_perL_per为基于VGG-19网络的感知损失函数，λ_mseL_mse为均方根损失函数，λ_advL_adv为对抗性损失函数，λ_fftL_fft为FFT的高频损失函数。

如图4所示，将真实世界高度退化的模糊图像送入步骤7中的训练好的模型中，生成的重建修复图像拥有更自然的人脸结构和更丰富的局部纹理细节，且忠实度很高。如图4所示，实验结果将与目前盲修复领域中最好的GFPGAN模型进行对比，其中，第一列中婴儿的耳朵区域，第二列中女子的眼睛瞳孔区域，第三列中男孩手臂与脸上的痣，第四列中男子的眼角皱纹与嘴部形状，本发明的重建图像比GFPGAN在上述高频细节区域的生成质量更优秀，并且每列图像中脸部的双眼皮、嘴唇上纹理这些区域，本发明比GFPGAN拥有更丰富的细节。证明了本发明的盲恢复重建图像拥有更丰富的纹理细节且整体结构自然，输入图像与重建图像拥有更高的忠实度。

在上述实施例中，图1中编解码器内部使用类似的残差连接操作或者使用Transformer编码块完成相同任务；图2中注意力机制选择替换种类，例如将多头交叉注意力换成交叉注意力、多头自注意力换成自注意力或通道注意力等等，但是操作目的相同；图3中的多尺度特征图嵌入中，对通道分割操作加上通道注意力机制或其他操作来达到最佳通道分割目的，这也是同样的对通道进行按比例分割。

以上所述为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于交叉注意力机制的真实退化图像盲修复方法，其特征在于，包括如下步骤：

步骤1：获取用于训练的高度退化图像数据集；

步骤4：使用U-Net中的解码器，生成多分辨率尺度的特征图；

步骤5：利用注意力机制对步骤3和4中生成的潜在编码和多尺度特征图进行优化处理，对潜在编码使用多头自注意力机制优化，优化编码器对潜在编码中语义特征的选择，将特征图作为查询匹配的信息源而潜在编码作为查询标志，使用多头交叉注意力机制将特征图中的空间特征引入潜在编码中，增强特征图的局部细节和全局上下文一致性，完成对潜在编码的优化以提高其语义表达能力；

步骤7：使用损失函数对输入图像的GT和重建图像进行损失值计算，对网络进行反向传播处理，进行网络超参数迭代优化，最终得到训练好的模型；

2.根据权利要求1所述的基于交叉注意力机制的真实退化图像盲修复方法，其特征在于，所述步骤1中的用于训练的模糊数据集是使用不同种类的退化方式进行混合组合来生成的，退化公式如下：

其中

为生成的高度退化模糊图像，

为高质量图像，

为卷积运算，

为模糊核，r为下采样比例因子，

为加性高斯噪声，JPEG_q为确定质量因子q的JPEG压缩。

3.根据权利要求1所述的基于交叉注意力机制的真实退化图像盲修复方法，其特征在于，所述步骤3和步骤4中U-Net的编、解码器中每一编、解码块层都为残差连接结构，其中主干由卷积核大小为3*3和1*1的卷积层组合，而分支为卷积核大小为3*3卷积层，最终生成的潜在编码维度为16*512。

4.根据权利要求3所述的基于交叉注意力机制的真实退化图像盲修复方法，其特征在于，所述步骤4中生成的多分辨率尺度特征图都进行了尺度和平移处理，其中进行尺度处理的卷积层中卷积核大小为3*3，进行平移处理的卷积层中卷积核大小为1*1。

5.根据权利要求4所述的基于交叉注意力机制的真实退化图像盲修复方法，其特征在于，所述步骤5中对步骤3和4中生成的初步16*512维潜在编码和8*8*256-512*512*16多尺度特征图使用注意力机制进行优化，其中对潜在编码使用多头自注意力机制优化，将特征图作为查询匹配的信息源而潜在编码作为查询标志，对潜在编码和多尺度特征图之间使用多头交叉注意力机制优化，将多尺度特征图中的空间特征引入潜在编码中，增强特征图的局部细节和全局上下文一致性，完成对潜在编码的优化以提高其语义表达能力。

6.根据权利要求5所述的基于交叉注意力机制的真实退化图像盲修复方法，其特征在于，所述步骤5中，多头自注意力中使用潜在编码生成Q、K和V，其公式如下：