CN115311144A - 一种基于小波域的标准流超分辨率图像重建方法 - Google Patents
一种基于小波域的标准流超分辨率图像重建方法 Download PDFInfo
- Publication number
- CN115311144A CN115311144A CN202210969698.2A CN202210969698A CN115311144A CN 115311144 A CN115311144 A CN 115311144A CN 202210969698 A CN202210969698 A CN 202210969698A CN 115311144 A CN115311144 A CN 115311144A
- Authority
- CN
- China
- Prior art keywords
- standard flow
- model
- layer
- super
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000009826 distribution Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000007670 refining Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000002441 reversible effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000001125 extrusion Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000000087 stabilizing effect Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 44
- 238000007476 Maximum Likelihood Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 4
- 230000016776 visual perception Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4084—Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
- G06T7/42—Analysis of texture based on statistical description of texture using transform domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
- G06T7/45—Analysis of texture based on statistical description of texture using co-occurrence matrix computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20064—Wavelet transform [DWT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于小波域的标准流超分辨率重建方法。本发明首先将图像数据集预处理,划分训练集、验证集以及测试集;其次构建标准流模型网络用于学习复杂分布与简单分布之间的映射关系;并在标准流模型中加入小波变换,将需要学习的信息分布转换至小波域中;然后通过替换正态分布为T‑分布,以及通过QR分解原理构建QR层,并在标准流模型前加入精炼层,进一步细化编码器提供的条件特征;最后利用训练集去训练基于小波域的标准流超分辨率模型,再将测试集低分辨率图像输入至训练过的模型中,得到重建的超分辨率图像。本发明可以有效改善重建超分辨率图的质量,也使得标准流模型更加稳定,并且具有较好的泛化性能。
Description
技术领域
本发明属于计算机图像处理技术领域,具体涉及一种基于小波域的标准流超分辨率图像重建方法。
背景技术
由于外界环境或采集设备的影响,所获取图像往往呈现分辨率低、细节损失等问题。随着用户视觉体验及应用需求的增加,对低分辨率图像进行处理至关重要。
图像超分辨率重建算法根据不同原理可以大致分为基于插值、基于退化模型和基于学习三种方法。基于插值的代表算法主要有最近邻插值法、双线性插值法和双立方插值法,这类算法虽然能够增加分辨率但是图像的细节与质量依旧不能很好的提高。基于退化模型方法从图像的降质退化模型出发,假定超分辨率图像是经过了适当的运动变换、模糊及噪声才得到低分辨率图像。这种方法通过提取低分辨率图像中的关键信息,并结合对未知的超分辨率图像的先验知识来约束超分辨率图像的生成。常见的方法包括迭代反投影法、凸集投影法和最大后验概率法等,虽然其效果优于基于插值重建方法,但是效果依旧不是令人满意的。
随着深度学习的不断发展以及其在计算机视觉领域的广泛应用,研究人员设计了很多基于深度学习的模型去解决该问题。但是图像超分辨率重建是一个病态问题,因为一张真实的低分辨率图片可能对应多张高分辨图片,不能就此确定生成的超分辨率图片就一定是符合真实超分辨率的。然而,如今的深度模型大多数都是确定映射的,由于网络模型中参数的固定,使得一张低分辨率只能对应一张高分辨图,并且其产生的一些超分辨率图片也是不尽如人意。如今存在两种类型的模型,一种是基于PSNR的模型,但是它们产生的图像局部变现和纹理结构不明显,导致图像有些模糊。另一种是基于视觉感知的模型,虽然它们产生的图像对于部分图像其纹理会更加清晰,但是有一些产生的图像的纹理则会不够清晰或者不真实。
近年来,标准流模型因为强大的生成能力而被广泛关注,因此,也被用于超分辨率领域,与之前所提及的网络不一样,它能学习一个由复杂分布到简单分布的准确映射。由于标准流模型的特殊性,当其生成图片时,它是需要从一个简单分布(高斯分布)中采样,这使得它能从同一张低分辨率图,生成多张主体类似部分细节却不同的超分辨率图片,在某种程度上缓解了超分辨重建这种病态问题。然而,这种标准流模型产生的超分辨率图像可能也不令人满意,同时这种模型在训练过程并不是特别稳定,这些存在的问题是亟待解决的。
发明内容
本发明的目的是克服现有技术的不足,提供了一种基于小波域的标准流超分辨率图像重建方法,利用小波域上获取的信息与强大的生成模型即标准流模型结合,去实现图像超分辨率高质量重建,与此同时提出了能够在一定程度解决标准流模型训练不稳定的解决方案。
本发明包括以下步骤:
S1:收集基于深度学习超分辨率任务常用的两个图像数据集,其中一个分离出训练集第一分量、验证集以及测试集。将训练集第一分量与另一个图像数据集合并,将合并的数据集中的每一个图像对(超分辨率图像-低分辨率图像)随机裁剪成相同的大小,用于构建出适合基于小波域的标准流超分辨率模型训练的完整的训练集;
S2:构建标准流模型,该模型是多级架构且是可逆的,每一级主要由挤压层、2种条件映射层(自我条件特征映射层与其他条件特征映射层)、分裂层、激活标准层与QR层组合而成,这些层用于标准流模型学习复杂分布与简单分布之间的映射关系;
S3:在标准流模型中加入小波变换,将需要学习的信息分布转换至小波域中,即能获得需要学习的信息的低频信息、对角线细节信息、横向细节信息和纵向细节信息;
S4:通过替换正态分布为T-分布,以及通过正交三角(QR)分解原理构建QR层,得到稳定标准流模型,共同来增加标准流模型的泛化性以及稳定其训练过程;
S5:在稳定标准流模型前加入精炼层,得到基于小波域的标准流超分辨率模型,用于进一步细化编码器提供的条件特征来提升模型的性能,并且增加该基于小波域的标准流超分辨率重建方法产生图像的质量;
S6:利用完整的训练集去训练基于小波域的标准流超分辨率模型,并将测试集中的低分辨率图像输入至训练过的标准流超分辨率模型中。具体是:测试集中的低分辨率图像输入编码器,获得条件特征,再进一步通过精炼层细化特征获得被精炼的特征。与训练过程相反,该模型是可逆的网络,从简单分布中(T-分布)采样输入至该标准流超分辨率模型,与此同时将被精炼过的特征注入对应的条件映射层,最终估计出在条件特征分布下的复杂分布(即高质量的超分辨率图像)。
本发明有益效果:本发明通过将小波域与标准流模型结合,利用小波域上的获取的信息提升标准流模型的性能,从而改善重建的超分辨率图的质量,得到高质量的超分辨率图片。同时本发明也使得标准流模型更加稳定,并且具有很好地泛化性能。
附图说明
图1为基于小波域的标准流超分辨率重建方法重建超分辨率图像的流程图;
图2为基于小波域的标准流超分辨率重建方法使用的网络的具体架构;
图3为基于小波域的标准流超分辨率重建方法对同一张图能够产生不同种风格图像的图示;
图4为基于小波域的标准流超分辨率重建方法与其他方法的产生的超分辨率图像的对比图。
具体实施方式
以下实施例是依据本发明的发明构思而提出,针对某一特定的问题场景,不应理解为对本发明保护范围构成的限制。以下结合附图对本发明的技术方案作进一步详细的说明,但本发明不应被视为限制本申请未在此详述的其他具体实施例。
基于小波域的标准流超分辨率重建方法的流程图如图1所示,构建标准流模型训练数据集,创建基于小波域的标准流超分辨率模型,并训练该模型,将从简单分布采样的隐特征变量与低分辨率图像结合,共同输入该模型重构出高质量超分辨率图像。
1.收集基于深度学习超分辨率任务常用的DIV2K与Flicker2K图像数据集,DIV2K分离出训练集第一分量、验证集以及测试集。将DIV2K训练集第一分量与Flicker2K整体数据集合并,将合并的数据集中的每一个图像对(超分辨率图像-低分辨率图像)随机裁剪出160X160像素大小的图像对,用于构建出适合基于小波域的标准流超分辨率模型训练完整的训练集。
2.如图2所示为基于小波域的标准流超分辨率重建方法使用的具体网络架构。这种架构由L级(尺度)组成,特征的一半维度在每个级的最后被分解出来,分解出的特征服从T-分布(而不是高斯分布)来计算它的负对数最大似然损失,剩余一半的特征继续用于标准流模型的学习。
首先,利用小波变换将RGB域中的高质量的超分辨率图像转换为小波域中的四种不同类型的信息:需要学习的信息的低频信息、对角线细节信息、横向细节信息和纵向细节信息。编码器gθ将输入的低分辨率图像进行处理获得新的特征当作条件特征,用于后续作为精炼层的输入。对于每一种信息,使用独立的标准流模型来学习被观察的简单分布(T-分布)。除了第一个尺度没有挤压层外,对于不同尺度的每一层都具有相同的结构,包括挤压层、分裂层、Q-Affine块和Q-Actnorm块。
Q-Affine块包含激活标准层、QR层和两种条件映射层。
Q-Actnorm块包含激活标准层和QR层。
挤压层是将特征的通道维度放大原来的四倍,长与宽的维度都压缩至原先的二分之一,保证数据量不变,该层是可逆的。
条件映射层包括自我条件映射层与其他特征条件映射层,用于增强基于条件特征分布标准流的映射学习能力,提高产生图片的质量。
分裂层是可逆的,主要处理特征的通道维度,允许一半的特征的通道维度继续让模型学习映射关系,使另一半的特征维度服从T-分布,这不仅可以减少训练时间也在一定程度上增加模型的性能。
激活标准层使用每个通道的标度和偏差参数执行激活的映射变换,类似于批量标准化,初始化这些参数,使得在给定初始数据小批量的情况下,每个通道的后行为动作具有零均值和单位方差。初始化后,标度和偏差被视为与数据无关的常规可训练参数。可以理解激活标准层就是对输入数据做预处理。
标准流是一种可逆模型,它能够学习被观测的复杂分布和简单分布(如多元高斯或者卡方分布z):z=f-1(x)之间的映射,其中f表示基于标准流的模型,x表示被观测到的分布(即复杂分布)。由于网络需要能够计算雅可比矩阵,所以它的每一级都必须设计得非常容易计算雅可比矩阵。同时,由于可逆性的原因,单层标准流模型的性能受到了限制。为了保证良好的网络性能,需要多级标准流模型进行堆叠,因此可构造f=f1*f2···fN-1*fN。
根据链式规则,每一个fi都能产生一个中间结果hi,最终能获得简单分布z。由于fi是可逆的,因此简单分布z也能通过fi得到复杂分布x,如下式所示:
由于其特殊的网络结构,基于标准流的模型可以通过只优化一个负对数最大似然损失(负对数最大似然值)来训练模型。根据变量公式的变化和链规则,对于一个样本,对数最大似然值可以计算为:
上式中,x代表着复杂的分布(超分辨率图像),z代表着简单的分布(T-分布),N代表着流模型的堆叠数,fi为单层的标准流模型,i表示第i层流模型,det代表着行列式,θ代表着模型中的参数,pz(z)代表概率密度函数。
通过优化负对数最大似然值-logp(x)来训练基于标准流的模型,对于基于条件分布的标准流模型(即依靠其他条件特征的注入来学习简单分布与复杂分布之间关系的模型),该基于小波域的超分辨率网络也是基于条件分布的标准流模型,其初始公式如下:
最后,通过采用负对数最大似然值来优化标准流模型。对于基于小波域的超分辨率标准流模型的优化公式将是如下所示:
其中,其中yi分表代表图像的水平细节信息、垂直细节信息、对角线细节信息和低频信息的区域。
使用单一负对数最大似然值损失训练可以使网络最终收敛,但在实际训练过程中,由于无监督原因网络收敛速度非常慢,可能无法达到最优值。因为该基于小波域的超分辨率网络是能够一对多映射,即够同时生成面向PSNR(即峰值信噪比,是一种评价图像的客观标准)或面向感知的图像,所以如果给原始的负对数最大似然添加L1或L2损失,就可以获得更高的PSNR值。使用L1像素损失训练比使用L2像素损失训练更稳定,可以获得更好的效果,然后这个训练损失函数则会变成下式:
L=λ1Lnll+λ2Lpixel(x,xτ=0)
上式中,x表示训练集中的超分辨率图像,xτ=0表示模型从以标准差为0的T-分布中采样潜在变量生成的超分辨率图像,Lnll代表着负对数最大似然值,λ1为其系数。Lpixel代表着像素损失,λ2为其系数。若在负对数最大似然值损失的基础上加上感知损失,就可以生成具有更好视觉质量的感知图像,训练损失函数将会变成如下式:
L=λ1Lnll+λ2Lpixel(x,xτ=0)+λ3Lpercep(x,xτ=τ0)
其中,xτ=τ0表示通过从以标准差为τ=τ0的T-分布中采样潜在变量所产生的偏向于视觉感知(即更符合人类的视觉感受且更加具有纹理特征)的图像,Lpercep代表着感知损失,λ3为其系数。在训练时将τ0设置为0.9,这可以生成更好的面向感知的图片。
3.在传统的图像处理任务中,使用频域增强可以带来一些很好的效果。相比于傅里叶变换和离散余弦变换,小波变换同时考虑了空间域信息和频域信息。基于小波域的内容生成可以产生更高质量的图像和更真实的高频内容,基于频域增强的方法也可以改进低水平视觉任务中产生的图像质量。使用最简单的小波变换即哈尔变换,它已被证明是简单和有效的。从一开始就将高质量的图像转换到小波域来学习,只使用一次小波变换,公式如下:
A,H,V,D=Harr(X)
上式中Harr(X)代表对X进行小波变换,并获得X,A,H,V,D特征信息,其分别表示高质量的图像、横向细节信息、纵向细节信息、对角线细节信息和低频信息的区域,它们特征通道维度数是X的通道维度数的四分之一,长度和宽度是X的二分之一。
4.稳定标准流模型,即通过替换正态分布为T-分布,以及通过QR分解原理构建QR层,将QR层与T-分布加入至该标准流模型中,这两者缺一不可,任意其一单独作用都达不到结合的方案的性能。
4.1QR层是专门用于提高标准流映射能力的网络层,用于交换特征通道维度上的信息,利用QR分解相比于PLU分解能提供更好的性能与灵活性,相比于1X1卷积层具有更好的稳定性。与PLU参数化类似,通过选择W=Q(R+diag(s))来稳定分解,Q是正交矩阵的,R是严格的三角形矩阵,s矩阵中的元素是非零的,diag输出s矩阵的对角线。根据正交矩阵原理,Q可以通过多个正交矩阵Qi链式构造:Q=Q1*…*Qn以确保其灵活性。一般来说为了保证效率,n设置为数据的通道数,每个Qi可以被表示如下:
其中I为对角全为1的n维对角矩阵,第i个矩阵ki中的参数是可学习的,kiki T为n维的矩阵,ki Tki代表一个标量,T代表转置操作。
4.2不同的分布有不同的特征,这将会影响模型的泛化能力和训练过程。对于异常数据点,对应的高斯概率会很低,这将导致log(0)等问题,导致零损失或巨大损失波动,使训练过程不稳定。一般的解决方案是降低学习率或使用梯度裁剪,使用梯度剪切可能会把它拉到一个不同的最优解决方案,而且性能可能不是很好。用T-分布代替多元高斯分布,可以在不改变学习速率和不使用梯度裁剪的情况下提高网络的泛化和训练稳定性。对于不符合模型假设的数据,与高斯分布相比,T-分布受异常值的影响较小,惩罚更小,使用T-分布的标准流模型更稳定,泛化能力得更好。用于计算D维特征T-分布损失的概率密度函数为:
5.在稳定标准流模型前加入精炼层,得到基于小波域的标准流超分辨率模型,用于进一步细化编码器提供的条件特征来提升模型的性能,并且增加该基于小波域的标准流超分辨率重建方法产生图像的质量。虽然抽取部分预训练的RRDB网络(经典的超分辨率模型)作为该基于小波域的标准流的编码器可以很好地从图像中提取特征,但输出维度很大,有些维度也不是很重要。因此,提出了精炼层(主要由多个注意力模块构成)来细化特征,以获得更好的性能。此外,将CABM(通道注意力模块与空间注意力模块)作为注意力模块,它是通道注意机制和空间注意机制的结合。并没有将精炼层插入到编码器中,而是作为一个单独的小网络模块,每两个条件映射层都对应精炼层中独立的一个注意力模块,而不是共享注意力模块来学习不同的尺度层。编码器获得的特征通过注意模块,关注重要的通道,强调某些空间部分。
6.训练阶段将利用在第一步骤获得的完整的训练集用于基于小波域的标准流模型进行训练,基于小波域的标准流超分辨率模型方法有三种模型损失的组合(Lnll,Lnll+Lpixel,Lnll+Lpercep+Lpixel),分别是模型的基础方法和基础模型的2种不同类型的增强方法。对于模型的基础方法训练150K时期(轮数)对于基于PSNR的增强模型在原有的基础模型上训练30K时期,对于基于感知的增强模型在原有的基础模型上训练20K时期。
将测试集中低分辨率图像输入至已经预训练过的基于小波域的标准流超分辨率模型中,使用预训练的RRDB的一部分作为编码器用于抽取特征,测试集中的低分辨率图像输入编码器,获得条件特征,再进一步通过精炼层细化特征获得被精炼的特征。与训练过程相反,该模型是可逆的网络,从简单分布中(T-分布)采样输入至该标准流超分辨率模型,与此同时将被精炼过的特征注入对应的条件映射层,最终估计出在条件特征分布下的复杂分布(即高质量的超分辨率图像)。
如图3所示,此为基于小波域的标准流超分辨率重建方法对同一张图能够产生不同种风格超分辨率图像的图示,其中GT代表着超分辨率真值图片。当使用基于小波域的标准流超分辨率重建方法获得超分辨率图像时,需要从标准差为τ的T-分布中随机采样隐特征变量,这意味着模型给出了从低分辨率图像到超分辨率图像的一对多映射能力。当标准差τ接近于0时,图像趋向于PSNR方向,具有类似的模糊效果。当标准差τ接近于1时,图像趋向于感知方向,即纹理更清晰,边缘更清晰。
如图4所示,此为基于小波域的标准流超分辨率重建方法与其他方法的产生的超分辨率图像的对比图,其中GT代表着超分辨率真值图片,而RankGAN,ESRGAN,NatSR均为基于视觉感知的超分辨率模型。EDSR,RRDB均为基于PSNR的超分辨率模型,HCFlow++,SRFlow均为标准流模型。WDFSR++为该基于小波域的标准流超分辨率重建方法,易知该超分辨率重建方法相比于其他重建方法能够产生更真实的,更清晰的纹理。
同时本发明也是一种普适的综合图像处理方法,其也能适用于图像低光增强的应用。
在本发明的具体实施的描述中,包含着负对数极大似然值,标准流,PSNR与感知损失等专业术语需要对想要实现该基于小波域的标准流超分辨率重建方法的技术人员有一定的专业知识与了解。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于小波域的标准流超分辨率图像重建方法,其特征在于包括以下步骤:
S1:收集基于深度学习超分辨率任务的两个图像数据集,其中一个图像数据集分离出训练集第一分量、验证集以及测试集;
将得到的训练集第一分量与另外一个图像数据集合并,将合并得到的数据集中每一个图像对随机裁成相同的大小,构建出完整的训练集;
S2:构建标准流模型,该模型由多级构成,每一级主要由挤压层、两种条件映射层、分裂层、激活标准层与QR层组合而成;
S3:在标准流模型中加入小波变换,将需要学习的信息分布转换至小波域中,获得需要学习的信息的低频信息、对角线细节信息、横向细节信息和纵向细节信息;
S4:通过替换正态分布为T-分布,以及通过正交三角QR分解原理构建QR层,将QR层与T-分布加入至该标准流模型中,得到稳定标准流模型,共同增加标准流模型的泛化性以及稳定其训练过程;
S5:在稳定标准流模型前加入精炼层,进一步细化编码器提供的条件特征,得到基于小波域的标准流超分辨率模型;
S6:利用完整的训练集去训练基于小波域的标准流超分辨率模型,并将测试集中的低分辨率图像输入至训练过的标准流超分辨率模型中,具体是:
测试集中的低分辨率图像输入编码器,获得条件特征,再进一步通过精炼层细化特征获得被精炼的特征,从简单分布中采样,输入至该标准流超分辨率模型,同时将被精炼过的特征注入对应的条件映射层,最终得出在条件特征分布下的高质量的超分辨率图像。
2.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法,其特征在于:在步骤S2中所述挤压层将特征通道维度放大为原来的四倍,长与宽的维度都压缩至原先的二分之一,保证数据量不变,该层是可逆的;
所述两种条件映射层包括自我条件映射层与其他特征条件映射层,用于增强基于条件特征分布标准流的映射学习能力;
所述分裂层是可逆的,用于处理特征的通道维度,允许一半的特征通道维度继续让模型学习映射关系,另一半的特征维度服从T-分布;
所述QR层是提高标准流模型映射能力的网络层,用于交换特征通道维度上的信息;
所述激活标准层使用每个通道的标度和偏差参数执行激活的映射变换,初始化标度和偏差参数。
3.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法,其特征在于:步骤S2所述标准流模型是一种可逆模型,每一级都设计易于计算雅可比矩阵。
4.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法,其特征在于:步骤S2所述的标准流模型第一级没有挤压层。
5.根据权利要求1所述的一种基于小波域的标准流超分辨率图像重建方法,其特征在于:步骤S5所述的精炼层作为一个单独的小网络模块,由多个注意力模块组成,每两个条件映射层都对应精炼层中独立的一个注意力模块。
6.根据权利要求5所述的一种基于小波域的标准流超分辨率图像重建方法,其特征在于:所述注意力模块由通道注意力模块与空间注意力模块构成,是通道注意机制和空间注意机制的结合。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210969698.2A CN115311144A (zh) | 2022-08-12 | 2022-08-12 | 一种基于小波域的标准流超分辨率图像重建方法 |
US18/335,971 US20240054605A1 (en) | 2022-08-12 | 2023-06-15 | Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210969698.2A CN115311144A (zh) | 2022-08-12 | 2022-08-12 | 一种基于小波域的标准流超分辨率图像重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115311144A true CN115311144A (zh) | 2022-11-08 |
Family
ID=83862133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210969698.2A Pending CN115311144A (zh) | 2022-08-12 | 2022-08-12 | 一种基于小波域的标准流超分辨率图像重建方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240054605A1 (zh) |
CN (1) | CN115311144A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362230A (zh) * | 2021-07-12 | 2021-09-07 | 昆明理工大学 | 一种基于小波变换的可逆流模型图像超分辨率的方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934477B (zh) * | 2024-03-22 | 2024-06-21 | 湖南科技大学 | 一种基于无监督学习的脑肿瘤图像检测方法 |
CN118537423B (zh) * | 2024-04-09 | 2024-10-29 | 网娱互动科技(北京)股份有限公司 | 一种基于人工智能的ai逻辑绘图方法 |
-
2022
- 2022-08-12 CN CN202210969698.2A patent/CN115311144A/zh active Pending
-
2023
- 2023-06-15 US US18/335,971 patent/US20240054605A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362230A (zh) * | 2021-07-12 | 2021-09-07 | 昆明理工大学 | 一种基于小波变换的可逆流模型图像超分辨率的方法 |
CN113362230B (zh) * | 2021-07-12 | 2024-04-05 | 昆明理工大学 | 一种基于小波变换的可逆流模型图像超分辨率的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20240054605A1 (en) | 2024-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115311144A (zh) | 一种基于小波域的标准流超分辨率图像重建方法 | |
CN110335193B (zh) | 一种基于生成对抗网络的目标域导向的无监督图像转换方法 | |
Antoniadis et al. | Regularization of wavelet approximations | |
Luo et al. | Lattice network for lightweight image restoration | |
Wen et al. | Image recovery via transform learning and low-rank modeling: The power of complementary regularizers | |
CN112837224A (zh) | 一种基于卷积神经网络的超分辨率图像重建方法 | |
CN113284051B (zh) | 一种基于频率分解多注意力机制的人脸超分辨方法 | |
CN117078510B (zh) | 一种潜在特征的单幅图像超分辨重建方法 | |
CN112270644A (zh) | 基于空间特征变换和跨尺度特征集成的人脸超分辨方法 | |
Li et al. | Example-based image super-resolution with class-specific predictors | |
CN110728728B (zh) | 一种基于非局部正则的压缩感知网络图像重建方法 | |
Hsu et al. | A high-capacity QRD-based blind color image watermarking algorithm incorporated with AI technologies | |
CN115984117B (zh) | 基于通道注意力的变分自编码图像超分辨率方法及系统 | |
CN115880158A (zh) | 一种基于变分自编码的盲图像超分辨率重建方法及系统 | |
CN116797461A (zh) | 基于多级强化注意力机制的双目图像超分辨率重建方法 | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
Wang et al. | A new blind image denoising method based on asymmetric generative adversarial network | |
CN105184742B (zh) | 一种基于拉普拉斯图特征向量的稀疏编码的图像去噪方法 | |
CN112927137A (zh) | 一种用于获取盲超分辨率图像的方法、设备及存储介质 | |
CN110569763B (zh) | 一种用于细粒度人脸识别的眼镜去除方法 | |
CN114998107A (zh) | 一种图像盲超分辨网络模型、方法、设备及存储介质 | |
Wen et al. | The power of complementary regularizers: Image recovery via transform learning and low-rank modeling | |
Huang | Image super-resolution reconstruction based on generative adversarial network model with double discriminators | |
Björk et al. | Simpler is better: Spectral regularization and up-sampling techniques for variational autoencoders | |
CN113628114A (zh) | 一种双通道稀疏编码的图像超分辨率重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |