CN115311144A

CN115311144A - 一种基于小波域的标准流超分辨率图像重建方法

Info

Publication number: CN115311144A
Application number: CN202210969698.2A
Authority: CN
Inventors: 杨柏林; 李绍棒; 宋超
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-08
Also published as: US20240054605A1

Abstract

本发明公开了一种基于小波域的标准流超分辨率重建方法。本发明首先将图像数据集预处理，划分训练集、验证集以及测试集；其次构建标准流模型网络用于学习复杂分布与简单分布之间的映射关系；并在标准流模型中加入小波变换，将需要学习的信息分布转换至小波域中；然后通过替换正态分布为T‑分布，以及通过QR分解原理构建QR层，并在标准流模型前加入精炼层，进一步细化编码器提供的条件特征；最后利用训练集去训练基于小波域的标准流超分辨率模型，再将测试集低分辨率图像输入至训练过的模型中，得到重建的超分辨率图像。本发明可以有效改善重建超分辨率图的质量，也使得标准流模型更加稳定，并且具有较好的泛化性能。

Description

一种基于小波域的标准流超分辨率图像重建方法

技术领域

本发明属于计算机图像处理技术领域，具体涉及一种基于小波域的标准流超分辨率图像重建方法。

背景技术

由于外界环境或采集设备的影响，所获取图像往往呈现分辨率低、细节损失等问题。随着用户视觉体验及应用需求的增加，对低分辨率图像进行处理至关重要。

图像超分辨率重建算法根据不同原理可以大致分为基于插值、基于退化模型和基于学习三种方法。基于插值的代表算法主要有最近邻插值法、双线性插值法和双立方插值法，这类算法虽然能够增加分辨率但是图像的细节与质量依旧不能很好的提高。基于退化模型方法从图像的降质退化模型出发，假定超分辨率图像是经过了适当的运动变换、模糊及噪声才得到低分辨率图像。这种方法通过提取低分辨率图像中的关键信息，并结合对未知的超分辨率图像的先验知识来约束超分辨率图像的生成。常见的方法包括迭代反投影法、凸集投影法和最大后验概率法等，虽然其效果优于基于插值重建方法，但是效果依旧不是令人满意的。

随着深度学习的不断发展以及其在计算机视觉领域的广泛应用，研究人员设计了很多基于深度学习的模型去解决该问题。但是图像超分辨率重建是一个病态问题，因为一张真实的低分辨率图片可能对应多张高分辨图片，不能就此确定生成的超分辨率图片就一定是符合真实超分辨率的。然而，如今的深度模型大多数都是确定映射的，由于网络模型中参数的固定，使得一张低分辨率只能对应一张高分辨图，并且其产生的一些超分辨率图片也是不尽如人意。如今存在两种类型的模型，一种是基于PSNR的模型，但是它们产生的图像局部变现和纹理结构不明显，导致图像有些模糊。另一种是基于视觉感知的模型，虽然它们产生的图像对于部分图像其纹理会更加清晰，但是有一些产生的图像的纹理则会不够清晰或者不真实。

近年来，标准流模型因为强大的生成能力而被广泛关注，因此，也被用于超分辨率领域，与之前所提及的网络不一样，它能学习一个由复杂分布到简单分布的准确映射。由于标准流模型的特殊性，当其生成图片时，它是需要从一个简单分布(高斯分布)中采样，这使得它能从同一张低分辨率图，生成多张主体类似部分细节却不同的超分辨率图片，在某种程度上缓解了超分辨重建这种病态问题。然而，这种标准流模型产生的超分辨率图像可能也不令人满意，同时这种模型在训练过程并不是特别稳定，这些存在的问题是亟待解决的。

发明内容

本发明的目的是克服现有技术的不足，提供了一种基于小波域的标准流超分辨率图像重建方法，利用小波域上获取的信息与强大的生成模型即标准流模型结合，去实现图像超分辨率高质量重建，与此同时提出了能够在一定程度解决标准流模型训练不稳定的解决方案。

本发明包括以下步骤：

S1：收集基于深度学习超分辨率任务常用的两个图像数据集，其中一个分离出训练集第一分量、验证集以及测试集。将训练集第一分量与另一个图像数据集合并，将合并的数据集中的每一个图像对(超分辨率图像-低分辨率图像)随机裁剪成相同的大小，用于构建出适合基于小波域的标准流超分辨率模型训练的完整的训练集；

S2：构建标准流模型，该模型是多级架构且是可逆的，每一级主要由挤压层、2种条件映射层(自我条件特征映射层与其他条件特征映射层)、分裂层、激活标准层与QR层组合而成，这些层用于标准流模型学习复杂分布与简单分布之间的映射关系；

S3：在标准流模型中加入小波变换，将需要学习的信息分布转换至小波域中，即能获得需要学习的信息的低频信息、对角线细节信息、横向细节信息和纵向细节信息；

S4：通过替换正态分布为T-分布，以及通过正交三角(QR)分解原理构建QR层，得到稳定标准流模型，共同来增加标准流模型的泛化性以及稳定其训练过程；

S5：在稳定标准流模型前加入精炼层，得到基于小波域的标准流超分辨率模型，用于进一步细化编码器提供的条件特征来提升模型的性能，并且增加该基于小波域的标准流超分辨率重建方法产生图像的质量；

S6：利用完整的训练集去训练基于小波域的标准流超分辨率模型，并将测试集中的低分辨率图像输入至训练过的标准流超分辨率模型中。具体是：测试集中的低分辨率图像输入编码器，获得条件特征，再进一步通过精炼层细化特征获得被精炼的特征。与训练过程相反，该模型是可逆的网络，从简单分布中(T-分布)采样输入至该标准流超分辨率模型，与此同时将被精炼过的特征注入对应的条件映射层，最终估计出在条件特征分布下的复杂分布(即高质量的超分辨率图像)。

本发明有益效果：本发明通过将小波域与标准流模型结合，利用小波域上的获取的信息提升标准流模型的性能，从而改善重建的超分辨率图的质量，得到高质量的超分辨率图片。同时本发明也使得标准流模型更加稳定，并且具有很好地泛化性能。

附图说明

图1为基于小波域的标准流超分辨率重建方法重建超分辨率图像的流程图；

图2为基于小波域的标准流超分辨率重建方法使用的网络的具体架构；

图3为基于小波域的标准流超分辨率重建方法对同一张图能够产生不同种风格图像的图示；

图4为基于小波域的标准流超分辨率重建方法与其他方法的产生的超分辨率图像的对比图。

具体实施方式

以下实施例是依据本发明的发明构思而提出，针对某一特定的问题场景，不应理解为对本发明保护范围构成的限制。以下结合附图对本发明的技术方案作进一步详细的说明，但本发明不应被视为限制本申请未在此详述的其他具体实施例。

基于小波域的标准流超分辨率重建方法的流程图如图1所示，构建标准流模型训练数据集，创建基于小波域的标准流超分辨率模型，并训练该模型，将从简单分布采样的隐特征变量与低分辨率图像结合，共同输入该模型重构出高质量超分辨率图像。

1.收集基于深度学习超分辨率任务常用的DIV2K与Flicker2K图像数据集，DIV2K分离出训练集第一分量、验证集以及测试集。将DIV2K训练集第一分量与Flicker2K整体数据集合并，将合并的数据集中的每一个图像对(超分辨率图像-低分辨率图像)随机裁剪出160X160像素大小的图像对，用于构建出适合基于小波域的标准流超分辨率模型训练完整的训练集。

2.如图2所示为基于小波域的标准流超分辨率重建方法使用的具体网络架构。这种架构由L级(尺度)组成，特征的一半维度在每个级的最后被分解出来，分解出的特征服从T-分布(而不是高斯分布)来计算它的负对数最大似然损失，剩余一半的特征继续用于标准流模型的学习。

首先，利用小波变换将RGB域中的高质量的超分辨率图像转换为小波域中的四种不同类型的信息：需要学习的信息的低频信息、对角线细节信息、横向细节信息和纵向细节信息。编码器g_θ将输入的低分辨率图像进行处理获得新的特征当作条件特征，用于后续作为精炼层的输入。对于每一种信息，使用独立的标准流模型来学习被观察的简单分布(T-分布)。除了第一个尺度没有挤压层外，对于不同尺度的每一层都具有相同的结构，包括挤压层、分裂层、Q-Affine块和Q-Actnorm块。

Q-Affine块包含激活标准层、QR层和两种条件映射层。

Q-Actnorm块包含激活标准层和QR层。

挤压层是将特征的通道维度放大原来的四倍，长与宽的维度都压缩至原先的二分之一，保证数据量不变，该层是可逆的。

条件映射层包括自我条件映射层与其他特征条件映射层，用于增强基于条件特征分布标准流的映射学习能力，提高产生图片的质量。

分裂层是可逆的，主要处理特征的通道维度，允许一半的特征的通道维度继续让模型学习映射关系，使另一半的特征维度服从T-分布，这不仅可以减少训练时间也在一定程度上增加模型的性能。

激活标准层使用每个通道的标度和偏差参数执行激活的映射变换，类似于批量标准化，初始化这些参数，使得在给定初始数据小批量的情况下，每个通道的后行为动作具有零均值和单位方差。初始化后，标度和偏差被视为与数据无关的常规可训练参数。可以理解激活标准层就是对输入数据做预处理。

标准流是一种可逆模型，它能够学习被观测的复杂分布和简单分布(如多元高斯或者卡方分布z)：z＝f^-1(x)之间的映射，其中f表示基于标准流的模型，x表示被观测到的分布(即复杂分布)。由于网络需要能够计算雅可比矩阵，所以它的每一级都必须设计得非常容易计算雅可比矩阵。同时，由于可逆性的原因，单层标准流模型的性能受到了限制。为了保证良好的网络性能，需要多级标准流模型进行堆叠，因此可构造f＝f₁*f₂···f_N-1*f_N。

根据链式规则，每一个f_i都能产生一个中间结果h_i，最终能获得简单分布z。由于f_i是可逆的，因此简单分布z也能通过f_i得到复杂分布x，如下式所示：

由于其特殊的网络结构，基于标准流的模型可以通过只优化一个负对数最大似然损失(负对数最大似然值)来训练模型。根据变量公式的变化和链规则，对于一个样本，对数最大似然值可以计算为：

上式中，x代表着复杂的分布(超分辨率图像)，z代表着简单的分布(T-分布)，N代表着流模型的堆叠数，f_i为单层的标准流模型，i表示第i层流模型，det代表着行列式，θ代表着模型中的参数，p_z(z)代表概率密度函数。

通过优化负对数最大似然值-logp(x)来训练基于标准流的模型，对于基于条件分布的标准流模型(即依靠其他条件特征的注入来学习简单分布与复杂分布之间关系的模型)，该基于小波域的超分辨率网络也是基于条件分布的标准流模型，其初始公式如下：

其中，e表示低质量图像的特征和

最后，通过采用负对数最大似然值来优化标准流模型。对于基于小波域的超分辨率标准流模型的优化公式将是如下所示：

其中，其中y_i分表代表图像的水平细节信息、垂直细节信息、对角线细节信息和低频信息的区域。

使用单一负对数最大似然值损失训练可以使网络最终收敛，但在实际训练过程中，由于无监督原因网络收敛速度非常慢，可能无法达到最优值。因为该基于小波域的超分辨率网络是能够一对多映射，即够同时生成面向PSNR(即峰值信噪比，是一种评价图像的客观标准)或面向感知的图像，所以如果给原始的负对数最大似然添加L1或L2损失，就可以获得更高的PSNR值。使用L1像素损失训练比使用L2像素损失训练更稳定，可以获得更好的效果，然后这个训练损失函数则会变成下式：

L＝λ₁L_nll+λ₂L_pixel(x,x_τ＝0)

上式中，x表示训练集中的超分辨率图像，x_τ＝0表示模型从以标准差为0的T-分布中采样潜在变量生成的超分辨率图像，L_nll代表着负对数最大似然值，λ₁为其系数。L_pixel代表着像素损失，λ₂为其系数。若在负对数最大似然值损失的基础上加上感知损失，就可以生成具有更好视觉质量的感知图像，训练损失函数将会变成如下式：

L＝λ₁L_nll+λ₂L_pixel(x,x_τ＝0)+λ₃L_percep(x,x_τ＝τ0)

其中，x_τ＝τ0表示通过从以标准差为τ＝τ₀的T-分布中采样潜在变量所产生的偏向于视觉感知(即更符合人类的视觉感受且更加具有纹理特征)的图像，L_percep代表着感知损失，λ₃为其系数。在训练时将τ0设置为0.9，这可以生成更好的面向感知的图片。

3.在传统的图像处理任务中，使用频域增强可以带来一些很好的效果。相比于傅里叶变换和离散余弦变换，小波变换同时考虑了空间域信息和频域信息。基于小波域的内容生成可以产生更高质量的图像和更真实的高频内容，基于频域增强的方法也可以改进低水平视觉任务中产生的图像质量。使用最简单的小波变换即哈尔变换，它已被证明是简单和有效的。从一开始就将高质量的图像转换到小波域来学习，只使用一次小波变换，公式如下：

A,H,V,D＝Harr(X)

上式中Harr(X)代表对X进行小波变换，并获得X,A,H,V,D特征信息，其分别表示高质量的图像、横向细节信息、纵向细节信息、对角线细节信息和低频信息的区域，它们特征通道维度数是X的通道维度数的四分之一，长度和宽度是X的二分之一。

4.稳定标准流模型，即通过替换正态分布为T-分布，以及通过QR分解原理构建QR层，将QR层与T-分布加入至该标准流模型中，这两者缺一不可，任意其一单独作用都达不到结合的方案的性能。

4.1QR层是专门用于提高标准流映射能力的网络层，用于交换特征通道维度上的信息，利用QR分解相比于PLU分解能提供更好的性能与灵活性，相比于1X1卷积层具有更好的稳定性。与PLU参数化类似，通过选择W＝Q(R+diag(s))来稳定分解，Q是正交矩阵的，R是严格的三角形矩阵，s矩阵中的元素是非零的，diag输出s矩阵的对角线。根据正交矩阵原理，Q可以通过多个正交矩阵Q_i链式构造：Q＝Q₁*…*Q_n以确保其灵活性。一般来说为了保证效率，n设置为数据的通道数，每个Q_i可以被表示如下：

其中I为对角全为1的n维对角矩阵，第i个矩阵k_i中的参数是可学习的，k_ik_i ^T为n维的矩阵，k_i ^Tk_i代表一个标量，T代表转置操作。

4.2不同的分布有不同的特征，这将会影响模型的泛化能力和训练过程。对于异常数据点，对应的高斯概率会很低，这将导致log(0)等问题，导致零损失或巨大损失波动，使训练过程不稳定。一般的解决方案是降低学习率或使用梯度裁剪，使用梯度剪切可能会把它拉到一个不同的最优解决方案，而且性能可能不是很好。用T-分布代替多元高斯分布，可以在不改变学习速率和不使用梯度裁剪的情况下提高网络的泛化和训练稳定性。对于不符合模型假设的数据，与高斯分布相比，T-分布受异常值的影响较小，惩罚更小，使用T-分布的标准流模型更稳定，泛化能力得更好。用于计算D维特征T-分布损失的概率密度函数为：

上式中，y为特征数据，μ为均值，∑为协方差，D为特征的通道维度，υ被称为自由度且一般大于0，当υ趋于无穷时，T-分布则变化成正态分布,

在基于小波域的标准流超分辨率模型中将υ设置为20。

5.在稳定标准流模型前加入精炼层，得到基于小波域的标准流超分辨率模型，用于进一步细化编码器提供的条件特征来提升模型的性能，并且增加该基于小波域的标准流超分辨率重建方法产生图像的质量。虽然抽取部分预训练的RRDB网络(经典的超分辨率模型)作为该基于小波域的标准流的编码器可以很好地从图像中提取特征，但输出维度很大，有些维度也不是很重要。因此，提出了精炼层(主要由多个注意力模块构成)来细化特征，以获得更好的性能。此外，将CABM(通道注意力模块与空间注意力模块)作为注意力模块，它是通道注意机制和空间注意机制的结合。并没有将精炼层插入到编码器中，而是作为一个单独的小网络模块，每两个条件映射层都对应精炼层中独立的一个注意力模块，而不是共享注意力模块来学习不同的尺度层。编码器获得的特征通过注意模块，关注重要的通道，强调某些空间部分。

6.训练阶段将利用在第一步骤获得的完整的训练集用于基于小波域的标准流模型进行训练，基于小波域的标准流超分辨率模型方法有三种模型损失的组合(L_nll,L_nll+L_pixel,L_nll+L_percep+L_pixel)，分别是模型的基础方法和基础模型的2种不同类型的增强方法。对于模型的基础方法训练150K时期(轮数)对于基于PSNR的增强模型在原有的基础模型上训练30K时期，对于基于感知的增强模型在原有的基础模型上训练20K时期。

将测试集中低分辨率图像输入至已经预训练过的基于小波域的标准流超分辨率模型中，使用预训练的RRDB的一部分作为编码器用于抽取特征，测试集中的低分辨率图像输入编码器，获得条件特征，再进一步通过精炼层细化特征获得被精炼的特征。与训练过程相反，该模型是可逆的网络，从简单分布中(T-分布)采样输入至该标准流超分辨率模型，与此同时将被精炼过的特征注入对应的条件映射层，最终估计出在条件特征分布下的复杂分布(即高质量的超分辨率图像)。

如图3所示，此为基于小波域的标准流超分辨率重建方法对同一张图能够产生不同种风格超分辨率图像的图示，其中GT代表着超分辨率真值图片。当使用基于小波域的标准流超分辨率重建方法获得超分辨率图像时，需要从标准差为τ的T-分布中随机采样隐特征变量，这意味着模型给出了从低分辨率图像到超分辨率图像的一对多映射能力。当标准差τ接近于0时，图像趋向于PSNR方向，具有类似的模糊效果。当标准差τ接近于1时，图像趋向于感知方向，即纹理更清晰，边缘更清晰。

如图4所示，此为基于小波域的标准流超分辨率重建方法与其他方法的产生的超分辨率图像的对比图，其中GT代表着超分辨率真值图片，而RankGAN,ESRGAN,NatSR均为基于视觉感知的超分辨率模型。EDSR,RRDB均为基于PSNR的超分辨率模型，HCFlow++,SRFlow均为标准流模型。WDFSR++为该基于小波域的标准流超分辨率重建方法，易知该超分辨率重建方法相比于其他重建方法能够产生更真实的，更清晰的纹理。

同时本发明也是一种普适的综合图像处理方法，其也能适用于图像低光增强的应用。

在本发明的具体实施的描述中，包含着负对数极大似然值，标准流，PSNR与感知损失等专业术语需要对想要实现该基于小波域的标准流超分辨率重建方法的技术人员有一定的专业知识与了解。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于小波域的标准流超分辨率图像重建方法，其特征在于包括以下步骤：

S1：收集基于深度学习超分辨率任务的两个图像数据集，其中一个图像数据集分离出训练集第一分量、验证集以及测试集；

将得到的训练集第一分量与另外一个图像数据集合并，将合并得到的数据集中每一个图像对随机裁成相同的大小，构建出完整的训练集；

S2：构建标准流模型，该模型由多级构成，每一级主要由挤压层、两种条件映射层、分裂层、激活标准层与QR层组合而成；

S3：在标准流模型中加入小波变换，将需要学习的信息分布转换至小波域中，获得需要学习的信息的低频信息、对角线细节信息、横向细节信息和纵向细节信息；

S4：通过替换正态分布为T-分布，以及通过正交三角QR分解原理构建QR层，将QR层与T-分布加入至该标准流模型中，得到稳定标准流模型，共同增加标准流模型的泛化性以及稳定其训练过程；

S5：在稳定标准流模型前加入精炼层，进一步细化编码器提供的条件特征，得到基于小波域的标准流超分辨率模型；

S6：利用完整的训练集去训练基于小波域的标准流超分辨率模型，并将测试集中的低分辨率图像输入至训练过的标准流超分辨率模型中，具体是：

测试集中的低分辨率图像输入编码器，获得条件特征，再进一步通过精炼层细化特征获得被精炼的特征，从简单分布中采样，输入至该标准流超分辨率模型，同时将被精炼过的特征注入对应的条件映射层，最终得出在条件特征分布下的高质量的超分辨率图像。

2.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法，其特征在于：在步骤S2中所述挤压层将特征通道维度放大为原来的四倍，长与宽的维度都压缩至原先的二分之一，保证数据量不变，该层是可逆的；

所述两种条件映射层包括自我条件映射层与其他特征条件映射层，用于增强基于条件特征分布标准流的映射学习能力；

所述分裂层是可逆的，用于处理特征的通道维度，允许一半的特征通道维度继续让模型学习映射关系，另一半的特征维度服从T-分布；

所述QR层是提高标准流模型映射能力的网络层，用于交换特征通道维度上的信息；

所述激活标准层使用每个通道的标度和偏差参数执行激活的映射变换，初始化标度和偏差参数。

3.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法，其特征在于：步骤S2所述标准流模型是一种可逆模型，每一级都设计易于计算雅可比矩阵。

4.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法，其特征在于：步骤S2所述的标准流模型第一级没有挤压层。

5.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法，其特征在于：步骤S5所述的精炼层作为一个单独的小网络模块，由多个注意力模块组成，每两个条件映射层都对应精炼层中独立的一个注意力模块。

6.根据权利要求5所述的一种基于小波域的标准流超分辨率图像重建方法，其特征在于：所述注意力模块由通道注意力模块与空间注意力模块构成，是通道注意机制和空间注意机制的结合。