CN116188272B

CN116188272B - 适用于多模糊核的两阶段深度网络图像超分辨率重建方法

Info

Publication number: CN116188272B
Application number: CN202310243888.0A
Authority: CN
Inventors: 庞志刚; 王波; 杨巨成; 王伟; 国英龙; 孙笑; 贾智洋; 魏峰; 徐振宇; 王嫄; 刘建征
Original assignee: Baotou Yihui Information Technology Co ltd
Current assignee: Baotou Yihui Information Technology Co ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-11-10
Anticipated expiration: 2043-03-15
Also published as: CN116188272A

Abstract

本发明提出一种适用于多模糊核的两阶段深度网络图像超分辨率重建方法，包括S1、构造数据集，以原始高分辨率图像为基础，生成对应的低分辨率模糊图像，并划分训练集、验证集和测试集；S2：构建适用于多模糊核的融合语义特征和空间特征的两阶段深度超分辨率重建模型；S3：初始化S2中所述模型，选取优化器，设置网络训练参数；S4：利用损失函数优化模型直至其收敛，并保存训练过程中生成的网络模型，用于图像超分辨率重建。本发明使图像中的关键区域得到更多的关注，从而显著减少计算量；同时有效利用多个模糊核的先验信息，以减少模糊核不匹配的可能性，提高图像恢复质量。

Description

适用于多模糊核的两阶段深度网络图像超分辨率重建方法

技术领域

本发明属于计算机视觉领域,特别是涉及到一种适用于多模糊核的两阶段深度网络图像超分辨率重建方法。

背景技术

单图像超分辨率指从单幅低分辨率图像重建高分辨率图像。作为计算机视觉和图像处理领域的一种重要技术，在越来越多领域得到了广泛的应用，如医学成像、遥感军事、视频监控等。

近年来，随着卷积神经网络的兴起，单图像超分辨率的研究也得到了迅速发展。在使用双三次插值合成低分辨率图像的基于卷积神经网络的超分辨率模型出现后，应用双三次插值作为退化模型的深度神经网络超分辨率方法陆续涌现。例如：现有技术中基于深度密集残差网络设计了一种金字塔结构的深度图超分辨模型，通过金字塔结构，所提出的模型利用从不同层提取的特征，并使用密集的残差块来模拟高频残差和低分辨率深度图之间的映射。又例如：现有技术中通过结合残差块、长短跳跃连接和通道注意力，提出残差通道注意力网络(RCAN)能够从输入图像中学习更有效的信息。另外，为了实现快速准确的图像超分辨率，现有技术中提出了深度拉普拉斯金字塔超分辨率网络(LapSRN)，在多个金字塔级别逐步重建HR图像的子带残差，并利用递归层在金字塔层之间和金字塔层内共享参数。尽管基于卷积神经网络的超分辨率方法取得了重大进展，但复杂的图像退化过程导致双三次插值退化模型的实际应用场景有限，这使得高质量的超分辨率恢复成为一项艰巨的任务。

图像超分辨率的最新发展见证了更多超越双三次退化的超分辨率方法的到来，例如模糊、下采样和噪声。通过判别学习，将快速有效的卷积神经网络去噪器集成到基于模型的优化中，以解决高斯去噪问题。DeblurGAN-v2是一种新的端到端生成对抗网络(GAN)，首次引入了特征金字塔网络作为生成器的核心构建模块，并且配备了双尺度鉴别器，实现了灵活高效的单图像运动去模糊。ZSSR是第一个无监督的零样本图像超分辨率方法，它利用单张图片的内部重复信息，通过小型卷积神经网络进行无监督训练，对低分辨率图像进行去模糊和去噪。GFN是一个双分支卷积神经网络，分别进行基本特征提取和特征恢复，然后通过递归门模块融合基本特征和恢复特征，以获得超分辨率的清晰特征。SFTMD是一种非盲去模糊超分辨率方法，通过空间特征变换层对特征图进行仿射变换以处理高斯模糊。

Transformer在自然语言处理领域大放异彩，在计算机视觉也应用广泛。现有方案中将Transformer处理的低阶词素和卷积神经网络处理的高阶语义信息相结合，采用网络预训练、微调的方法，通过分工合作提高超分辨率结果。SwinIR是一种基于SwinTransformer并结合局部注意力和跨窗口交互的强大图像恢复基线模型，比流行的基于卷积神经网络的超分辨率模型具有更好的性能和更少的参数。显然，Transformer有可能成为计算机视觉任务的强大“通用”模型。

尽管基于卷积神经网络的方法通过不同的网络结构和训练策略，不断的提高单图像超分辨率的性能。但现有超分辨率模型平等地对待所有视觉信息，而不关注图像中相对重要的区域，例如，在视频监控图像中，人类应该比天空更受关注。然而，基于卷积神经网络的超分辨率方法统一处理所有图像块，从而导致计算和表示的空间效率低下。此外，低分辨率图像中的退化通常由模糊核建模，包括广泛采用的各向同性高斯模糊内核、运动模糊和失焦模糊等。但是，大多数现有的超分辨方法不考虑模糊核，或者只针对单一类型的模糊核，它们不能处理由其他模糊核生成的低分辨率图像。因此模糊核不匹配会使恢复后的图像出现锐化、模糊、失焦等现象，从而导致恢复性能不佳。

发明内容

本发明的目的在于克服现有技术的不足，提出适用于多模糊核的两阶段深度网络图像超分辨率重建方法，使图像中的关键区域得到更多的关注，从而显著减少计算量；同时有效利用多个模糊核的先验信息，以减少模糊核不匹配的可能性，提高图像恢复质量。

为达到上述目的，本发明的技术方案是这样实现的：

一种适用于多模糊核的两阶段深度网络图像超分辨率重建方法，包括：

S1、构造数据集，以原始高分辨率图像为基础，生成对应的低分辨率模糊图像，并划分训练集、验证集和测试集；

S2：构建适用于多模糊核的融合语义特征和空间特征的两阶段深度超分辨率重建模型；

S3：初始化S2中所述模型，选取优化器，设置网络训练参数；

S4：利用损失函数优化模型直至其收敛，并保存训练过程中生成的网络模型，用于图像超分辨率重建。

进一步的，还包括：

S5：加载所述网络模型，在测试集上进行测试；

S6：根据评价指标和视觉对比结果，评估模型的图像恢复性能。

更进一步的，步骤S6中计算步骤S5测试生成的重建后的超分辨率图像与原始高分辨率图像之间的峰值信噪比PSNR和结构相似性SSIM，并结合图像的视觉对比结果，评估模型的图像恢复性能。

进一步的，步骤S1中所述低分辨率模糊图像的生成方法包括使用多模糊核对所述原始高分辨率图像进行模糊处理。

进一步的，步骤S2中所述语义特征的提取包括：

S201、通过空间注意力将含有H*W个像素的特征图转换为L个紧凑的视觉语义标记，其中H和W是图像的高和宽，L小于H*W；

S202、应用Transformer模型对所述视觉语义标记之间的交互关系进行建模；

S203、将视觉语义标记转换为语义特征图。

更进一步的，步骤S2中所述空间特征的融合包括：

S211、利用主成分分析法将模糊核投影到线性空间上进行降维，再将降维核拉伸到与所述语义特征图相同的维度，得到模糊核图；

S212、使用仿射变换建模模糊核图的先验信息对语义特征图的影响；

S213、利用输入语义特征图的空间关系生成空间注意特征；使用最大池化和平均池化操作来收集语义特征图的通道信息，并计算出注意权重；根据注意权重，得到具有空间注意信息的空间特征图。

进一步的，步骤S3中选取ADAM优化器优化模型。

进一步的，步骤S4中采用均方误差损失函数来实现对模型的优化。

本发明另一方面还提出了一种适用于多模糊核的两阶段深度网络图像超分辨率重建装置，包括：

数据集单元：构造数据集，以原始高分辨率图像为基础，生成对应的低分辨率模糊图像，并划分训练集、验证集和测试集；

模型构建单元：构建适用于多模糊核的融合语义特征和空间特征的两阶段深度超分辨率重建模型；

初始化单元，初始化模型构建单元构建的模型，选取优化器，设置网络训练参数；

模型生成单元，利用损失函数优化模型直至其收敛，并保存训练过程中生成的网络模型，用于图像超分辨率重建。

进一步的，所述模型构建单元包括：

标记子模块：通过空间注意力将含有H*W个像素的特征图转换为L个紧凑的视觉语义标记，其中H和W是图像的高和宽，L小于H*W；

Transformer子模块：应用Transformer模型对所述视觉语义标记之间的交互关系进行建模；

投影子模块：将视觉语义标记转换为语义特征图；

维度拉伸子模块：利用主成分分析法将模糊核投影到线性空间上进行降维，再将降维核拉伸到与所述语义特征图相同的维度，得到模糊核图；

空间特征变换子模块：使用仿射变换建模模糊核图的先验信息对语义特征图的影响；

空间注意力子模块：利用输入语义特征图的空间关系生成空间注意特征；使用最大池化和平均池化操作来收集语义特征图的通道信息，并计算出注意权重；根据注意权重，得到具有空间注意信息的空间特征图。

与现有技术相比，本发明具有如下的有益效果：

1.本发明提出了适用于多模糊核的两阶段深度网络图像超分辨率重建方法，该模型由第一阶段：语义特征提取模块、第二阶段：空间特征融合模块和重建模块组成，通过自适应地融合两阶段语义特征和空间特征，提高了图像恢复质量。

2.本发明提出了一种语义特征提取机制，通过将特征图转换为一组紧凑的视觉语义标记，并对标记之间的关系进行建模，大大增强了对图像重要区域的恢复，并显著减少了计算负载。

3.本发明提出了一种空间特征融合机制，利用输入特征的空间关系生成空间注意特征，并从图像中提取关键信息，提高了卷积神经网络的表示能力。

4.本发明通过维度拉伸和空间特征变换有效地利用多个模糊核(如高斯、运动和失焦模糊核)的先验信息，减少了模糊核不匹配的可能性，具有较强的图像恢复能力。

附图说明

图1为本发明实施例的流程示意图。

图2为本发明实施例的整体结构示意图。

图3为本发明实施例的语义特征提取的结构示意图。

图4为本发明实施例的空间特征融合的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为使本发明专利的目的、特征更明显易懂，下面结合附图对本发明专利的具体实施方式作进一步的说明。需说明的是，附图均采用非常简化的形式且均使用非精准的比率，仅用以方便、明晰地辅助说明本发明专利实施例的目的。

下面结合附图对本发明的具体实施做进一步的详细说明。

参见图1，图1显示了本发明提出的适用于多模糊核的两阶段深度网络图像超分辨率重建方法的实施例流程图，其包括：

步骤1：构造所需的数据集，以原始高分辨率图像为基础，生成对应的低分辨率模糊图像，并划分训练集、验证集和测试集，以进行模型训练和测试。

具体的，其所述步骤包括：

(1)采用DIV2K数据集的前800张图像和Flickr2K数据集，共3450张高质量2K图像作为训练集的原始高分辨率图像；DIV2K的第801～900张2K图像作为验证集的原始高分辨率图像，验证集在网络模型训练过程用于评估网络的重建性能，利于观察网络模型的收敛程度；选用Set5、Set14、BSDS100和urban100数据集作为测试集的原始高分辨率图像。

(2)对高分辨率图像(HR)进行模糊和下采样处理，得到低分辨率图像(LR)，构建成对样本；模糊处理选择使用最广泛的三种模糊核，即各向同性高斯模糊核、运动模糊核和失焦模糊核；接着沿用以往算法常使用的双三次下采样进行下采样。整个处理过程可由以下公式表示：

其中，HR表示原始高分辨率图像，LR表示对应的低分辨率图像，k表示模糊核，↓s表示双三次下采样操作，表示卷积操作。

处理后得到低分辨率图像，构建低分辨率-高分辨率图像的成对样本。

(3)为了增强训练数据集中数据的多样性和扩展数据量，将成对的训练样本即低分辨率-高分辨率图像进行水平翻转和90°旋转操作,得到扩展的样本。

(4)由于原始的图像尺寸太大，直接输入到网络模型中进行训练会造成网络模型计算量过大，减慢训练速度。为了减小训练难度，对训练图像进行随机剪裁，将低分辨率图像裁剪为64×64大小的图像块，对应的高分辨率图像裁剪为64s×64s，s为放大因子；所述随机剪裁的方法为使用python PIL(Python Image Library)库的crop函数；

(5)在一次训练批次中，提取16个低分辨率图像块作为输入；

(6)所述验证集和测试集同样经过上述(2)、(3)、(4)和(5)四个步骤。验证集在网络训练过程用于评估生成网络的重建性能，利于观察生成网络模型的收敛程度。

步骤2：构建适用于多模糊核的融合语义特征和空间特征的两阶段深度超分辨率重建模型。所述模型可以是pytorch框架建立的网络模型。

在本步骤中，提出了一种适用于多模糊核的融合语义特征和空间特征的两阶段深度超分辨率重建模型，如图2所示。该模型分为两个阶段，主要包括第一阶段的语义特征提取模块，以及第二阶段的空间特征融合模块和重建模块。

其中，第一阶段的语义特征提取是由标记子模块、Transformer子模块、投影子模块共同完成；

所述标记子模块通过空间注意力将含有H*W个像素的特征图转换为L个紧凑的视觉语义标记，其中H和W是图像的高和宽；转换过程为：通过对特征图逐点卷积并进行权重归一化，得到空间语义注意力图，特征图与空间语义注意力图逐点相乘，转换为L个视觉语义标记。

根据经验和实验推断，少量标记缺乏区分局部特征的能力。然而，如果标记数量很大，它们可能过于敏感，导致局部特征分组时存在噪声干扰。因此，为了平衡性能和计算成本，设置L＝8。常规的视觉语义标记提取方法是将图像分割成固定大小的块(比如512*512的图像对应1024个视觉语义标记)作为标记，本实施例将图像转换成8个视觉语义标记，比起常规方法更加紧凑，L远小于H*W，大大节省了参数的数量，提高了计算效率；

所述Transformer子模块基于缩放点积注意力、非线性激活和归一化对标记之间的交互关系进行建模，普通卷积操作使用固定的权重，每个标记对应特定语义，而Transformer依赖于可学习的权重，从而支持具有可变语义的视觉标记，可用更少的标记覆盖更多语义信息，进一步减少涉及所有高级语义概念的计算。

由于许多可视化任务需要视觉语义标记中不存在的像素级细节，因此视觉语义标记提供的信息是不够的，所述投影子模块通过权重归一化提取视觉语义标记中的语义信息并与低级、浅层特征图F_S逐点相乘，得到含有语义信息的语义特征图F_D。该部分可由以下公式表示：

F_D＝SFE(F_S)

其中，F_D是语义特征提取模块输出的语义特征图，F_S是LR图像通过3×3级联卷积层生成的低级、浅层特征图，SFE()是语义特征提取操作。

第二阶段的空间特征融合模块核心目的是有效地处理语义特征提取部分输出的语义特征图和多模糊核的先验信息，由维度拉伸子模块、空间特征变换子模块、空间注意力子模块、残差结构和跳跃连接等构建而成；第二阶段的重建模块由上采样层和卷积层构成，如图4所示。

所述维度拉伸子模块是一种简单而有效的直接处理非图像输入的策略，大大的减少了计算量。其利用主成分分析法(Principal Component Analysis，PCA)将模糊核k投影到线性空间上进行降维，再将降维核拉伸到与语义特征图F_D相同的维度，得到模糊核图K。

所述空间特征变换子模块使用仿射变换通过小型卷积神经神经网络学习像素缩放、移动参数建模模糊核图K的先验信息对语义特征图F_D的影响，可以被视为基本变换(如缩放、平移、旋转、翻转和剪切)的组合。

所述空间注意力子模块提高了卷积神经网络的表示能力。具体而言，空间注意力利用输入特征图F_D的空间关系生成空间注意特征，以提取关键信息。接着使用最大池化和平均池化操作来收集特征图F_D的通道信息，并进一步计算出注意权重。根据注意权重，得到具有空间注意信息的新特征F_SA。

该部分可由以下公式表示：

F_SA＝SA(F_D)

其中，F_SA是空间特征融合模块输出的空间特征图，SA()是空间注意力操作。

综上所述，空间特征融合模块中的多分支结构自适应地融合来自语义特征提取模块语义信息和空间特征融合模块的空间信息，这种双特征融合机制生成了融合特征F_F。

所述重建模块通过像素重组上采样层和级联卷积层对特征图F_F重构，得到超分辨率图像(SR)。

步骤3：初始化网络模型，选取优化器，设置网络训练的参数；

由于在步骤2中已说明是采用pytorch框架建立网络模型，因此在本步骤中初始化网络模型权重；选取ADAM优化器优化模型，设置β₁＝0.9，β₂＝0.999；初试化学习率为10^-4；初始化网络训练的参数。

步骤4：使用均方误差损失函数优化网络模型直至其收敛，并保存训练过程中生成的网络模型。

步骤5：加载最优网络模型，在测试集上进行测试，生成重建后的超辨率图像。

本步骤一般流程是加载训练过程中生成的最优网络模型，将测试集图像输入到超分辨率网络模型，生成并保存重建高分辨率图像；测试集中的每个数据集都有不同的特征，以更全面的测试网络模型泛化能力。

步骤6：计算重建后的超分辨率图像与原始高分辨率图像之间的评价指标，，并结合图像的视觉对比结果，以此评估模型的图像恢复性能。

在本步骤中，计算由步骤5生成的重建超分辨率图像与原始高分辨率图像之间的评价指标，如：PSNR和SSIM，以获得图像重建质量的定量结果；此外，通过将该网络模型生成的重建超分辨率图像进行可视化，获得图像重建质量的定性结果；将定量结果与定性结果与同条件下其他研究方法的生成结果进行对比，获得定量对比和定性对比，进而评估该网络模型的图像重建性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于多模糊核的两阶段深度网络图像超分辨率重建方法，其特征在于，包括：

S3：初始化S2中所述模型，选取优化器，设置网络训练参数；

S4：利用损失函数优化模型直至其收敛，并保存训练过程中生成的网络模型，用于图像超分辨率重建；

步骤S2中语义特征的提取包括：

S203、将视觉语义标记转换为语义特征图；

步骤S2中空间特征的融合包括：

2.根据权利要求1所述的适用于多模糊核的两阶段深度网络图像超分辨率重建方法，其特征在于，还包括：

S5：加载所述网络模型，在测试集上进行测试；

3.根据权利要求2所述的适用于多模糊核的两阶段深度网络图像超分辨率重建方法，其特征在于，步骤S6中计算步骤S5测试生成的重建后的超分辨率图像与原始高分辨率图像之间的峰值信噪比PSNR和结构相似性SSIM，并结合图像的视觉对比结果，评估模型的图像恢复性能。

4.根据权利要求1所述的适用于多模糊核的两阶段深度网络图像超分辨率重建方法，其特征在于，步骤S1中所述低分辨率模糊图像的生成方法包括使用多模糊核对所述原始高分辨率图像进行模糊处理。

5.根据权利要求1所述的适用于多模糊核的两阶段深度网络图像超分辨率重建方法，其特征在于，步骤S3中选取ADAM优化器优化模型。

6.根据权利要求1所述的适用于多模糊核的两阶段深度网络图像超分辨率重建方法，其特征在于，步骤S4中采用均方误差损失函数来实现对模型的优化。

7.一种适用于多模糊核的两阶段深度网络图像超分辨率重建装置，其特征在于，包括：

模型生成单元，利用损失函数优化模型直至其收敛，并保存训练过程中生成的网络模型，用于图像超分辨率重建；

所述模型构建单元包括：

投影子模块：将视觉语义标记转换为语义特征图；