CN114881861B - 基于双采样纹理感知蒸馏学习的不均衡图像超分方法 - Google Patents
基于双采样纹理感知蒸馏学习的不均衡图像超分方法 Download PDFInfo
- Publication number
- CN114881861B CN114881861B CN202210579510.3A CN202210579510A CN114881861B CN 114881861 B CN114881861 B CN 114881861B CN 202210579510 A CN202210579510 A CN 202210579510A CN 114881861 B CN114881861 B CN 114881861B
- Authority
- CN
- China
- Prior art keywords
- sampling
- model
- data
- training
- distillation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 171
- 238000004821 distillation Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000008447 perception Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000013140 knowledge distillation Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 101100365548 Caenorhabditis elegans set-14 gene Proteins 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
基于双采样纹理感知蒸馏学习的不均衡图像超分方法,涉及图像处理领域。包括:1)双采样策略:设计双采样策略来显式增加对少量的困难样本的采样概率,其包括反转采样和随机采样两种采样概率相反的方式训练超分模型,利用这两种采样方式来重新平衡训练数据的分布;2)纹理感知蒸馏学习:通过反转采样数据训练得到教师超分模型,通过蒸馏学习将教师模型中有效的参数级和图像级信息迁移到随机采样的学生超分模型中,从而提升不均衡图像的超分性能。可用于智能视频监控、遥感卫星、医学图像、视频应用及其它许多领域的实际需要等。
Description
技术领域
本发明涉及图像处理领域,尤其是涉及用于智能视频监控、遥感卫星、医学图像、视频应用及其它许多领域的实际需要等的一种基于双采样纹理感知蒸馏学习的不均衡图像超分方法。
背景技术
图像超分辨率重建因为其应用前景以及实际应用价值,近年来受到广泛的关注,并涌现出许多优秀的算法。然而,这些超分模型对训练数据进行等概率采样,忽略训练数据集中的不平衡数据分布。近来,有相关研究提出区域感知的超分方法来处理不同的图像区域,旨在自适应地在更困难的样本点上分配更多的计算资源。具体实现过程为将图像分解为子图像,然后通过强化学习为每个子图像估计适当的处理路径;或者采用分类方法来确定对不同图像区域的处理,然后通过不同大小的模型重建子图像;还有通过自适应加权损失来训练深度网络,从而专注于具有高不确定性的纹理和边缘像素。而本发明主要从数据采样角度重新思考图像超分中的分布平衡方法。
数据重平衡最常见的方法有重采样和重加权。重采样方法可以分为两种类型:对少数类数据进行过采样以及对多数类数据进行欠采样。对于重采样,重复的尾部类样本可能会导致对少数类的过度拟合,同时,减少头部类数据的采样无疑会损害深度网络的泛化能力。对于重加权,其通常在损失函数中对尾部类的训练样本分配较大的权重。然而,重加权无法处理大规模真实场景下的长尾数据,并且往往会导致优化困难。
知识蒸馏被广泛的用于模型压缩和迁移学习当中,旨在训练一个紧凑的学生模型,从而逼近大的教师模型中隐含的映射关系。其中自蒸馏是一种模仿模型自身在不同训练阶段输出的一种学习策略,本发明根据自蒸馏的核心思想,引入纹理感知蒸馏学习方法,通过不断迁移利用反转采样数据训练的超分模型中的有效信息,包括连续自蒸馏和选择性像素蒸馏。
中国专利CN113240580A公开一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法,该方法步骤包括:教师网络预处理;数据集预处理生成低分辨率图像;将低分辨率图像输入构建的学生网络中,输出学生网络重建的超分辨率图像;将低分辨率图像输入到多个教师网络中用于得到重建的超分辨率图像组;将学生网络重建的超分辨率图与教师网络重建的超分辨率图像组分别进行L1损失和感知损失计算,通过反向传播更新训练得到最终的学生网络模型;将低分辨率图片输入最终的网络模型,输出超分辨率图像。
目前,主流的深度超分模型主要集中在网络结构设计和优化方案上,对训练数据的关注不足。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供实现更有效的纹理感知超分任务,在进行传统的超分任务的同时,考虑到普遍的超分任务都是针对光滑区域的学习而实现的指标,侧重于学习细节纹理区域,弥补数据特异性偏差的不平衡,得到在纹理和边缘信息更强的超分效果,更有效的一种基于双采样纹理感知蒸馏学习的不均衡图像超分方法。
本发明包括以下步骤:
1)数据集:采用DIV2K数据集(广泛应用于超分任务)训练深度超分模型,其包含800张训练数据和100张验证数据/>其中H表示高分辨率数据,L表示对应的双三次下采样低分辨率数据;
2)数据处理:随机裁剪至指定大小,其中高分辨率数据大小为128*128(2倍、4倍)或者129*129(3倍),低分辨率数据大小为对应倍数的高分辨率数据的下采样尺寸,采用随机翻转进行数据增强;
3)双采样策略:包括随机采样和反转采样。其中随机采样是对于所有的输入样本根据随机采样的准则进行数据采样,而反转采样是根据数据的概率分布进行反转选择,从而达到反转采样的效果。为了实现反转采样,首先需要对训练数据进行分类,即将训练图像以滑动窗口裁剪的方式(高分辨率子图的大小为128*128或者129*129)获得子图,然后输入到预训练好的超分模型预测所有子图的重构难易难度,再根据长尾数据分布公式得到每个类别的样本数量;
4)纹理感知蒸馏学习:将预训练的反转采样超分模型中的参数级和图像级有效信息迁移到随机采样的学生模型中,包括连续自蒸馏和选择性知识蒸馏。连续自蒸馏用于将教师模型中的有效的参数级信息迁移到学生模型,从而增强模型对于困难样本的特征提取能力。选择性知识蒸馏用于从教师模型的超分结果中择优选择误差较小的像素区域来监督学生模型的训练。
5)损失函数:对于模型的整个训练过程中,使用常用的平均绝对误差L1和蒸馏损失LSKD对超分模型进行约束;
6)算法训练步骤:分为两个阶段进行训练;
第一阶段,训练反转采样超分模型,根据反转采样分类数据集采用L1损失训练反转采样超分模型,作为下一阶段初始教师模型参数;
第二阶段,首先加载当前的教师模型参数,接着利用随机采样数据更新学生模型参数,根据纹理感知蒸馏学习更新学生模型和教师模型参数;
重复第二阶段训练直至收敛或者达到最大训练伦次。将预训练的反转采样超分模型中的参数级和图像级的有效信息迁移到随机采样的学生模型中,从而使得最终的模型可以平衡训练数据的长尾效应。
在步骤3)中,所述设计双采样策略来弥补数据特定的不均衡分布问题:
本发明通过设计双采样策略来显式增加对困难样本(边缘和纹理区域)的采样,包括反转采样和随机采样,用于平衡训练数据的分布。
(3.1)反转采样:旨在为样本量较少的尾部数据分配更高的采样概率。为此,首先需要根据样本重建难易程度对其进行分类,然后从各个类别中进行采样
(3.1.1)数据分类:不同于长尾分类任务,其有明确的类别数量。图像超分是一个回归任务,因此,需要将训练数据集分为不同的类别。分类过程如下:
a.将DIV2K训练数据集以滑动窗口的方式裁剪成多个子图像;
b.将所有低分辨率子图输入到预训练好的EDSR_Baseline模型中,并与对应的高分辨率参照图像计算均方误差(MSE),将每张子图的MSE值的大小作为其重建难易程度评估指标,如图1所示,即为DIV2K训练集所有子图的MSE值分布,可以看出训练数据呈现长尾分布;
c.根据不同的重建难度(MSE)将子图进行分类,因此,需要确定不同的MSE阈值。将类别数预定义为10个,按照长尾分类任务中数据集的生成方式,即通过指数函数减少每个类别的训练样本数量,从而可按照如下表达式对DIV2K子图数据集进行划分:
Nk=NK×μk,(1)
其中K是类别总数,NK表示训练子图总数量,Nk表示第k个类别的数据量,μ∈(0,1)表示衰减因子。此外,长尾数据集的不平衡因子定义为训练样本中数量最多的类别除以数量最少的类别的值,其范围通常是10到200,默认设置为200。由此,可以获得DIV2K分类数据集合
(3.1.2)采样过程:每个类的采样概率与其样本容量成反比,即类别中样本数量越多,该类别中数据的采样概率就越小,从而实现对于尾部类数据的重复利用。反转采样的步骤如下:
a.根据类别k的样本数量计算得到其采样概率:
其中Nk表示第k个类别的数据量,表示每个类别的采样概率;
b.根据反转采样概率选择某个类别;
c.从选定的类别中随机选取1个样本;
通过重复以上操作获得一个批次的训练数据。
(3.2)随机采样:即从训练数据集中的全图像中随机裁剪得到图像块,是图像超分中最常用的数据采样方法。具体而言,输入数据来自一个均匀采样器,其中训练数据集中的每个样本在同一轮训练中以相等概率采样。因此,从训练数据集中采样得到一个样本的概率可表示为:
其中N表示训练样本总数量。随机采样保持原有的数据分布。
在步骤4)中,所述利用随机采样进行第二阶段的纹理感知蒸馏学习;
纹理感知蒸馏学习旨在将有效的参数级和图像级信息从预训练的反转采样超分模型中迁移到随机采样的学生超分模型,包括连续自蒸馏和选择性知识蒸馏。
(4.1)连续自蒸馏:用于将教师模型中的有效的参数级信息转移到学生模型,从而增强模型对于困难样本的特征提取能力。
第一阶段采用反转采样进行超分模型的预训练,有助于充分捕捉纹理和细节信息,为后续训练提供一个良好的初始解。
接下来,将反转采样超分模型的信息蒸馏到随机采样超分模型中,使用教师模型和学生模型的线性组合作为当前迭代的学生模型参数和下一次迭代的教师模型参数。因此,所提出的连续自蒸馏可表示如下:
其中i表示第i次迭代训练,α是权重参数,θs代表学生模型的网络参数,θt代表教师模型的网络参数。两个模型参数的线性插值组成了用于下一次迭代训练的新参数。
(4.2)选择性知识蒸馏:用于从教师模型的超分结果中择优选择误差较小的像素区域来监督学生模型的训练。
传统的均方误差(MSE)或L1损失函数认为所有像素的均等重要,对每个像素进行同等处理。然而,在一幅图像中,纹理和边缘区域比平滑区域承载着更重要的视觉信息。在此,采用选择性知识蒸馏(SKD)来学习教师模型生成的超分结果中的择优像素。
(4.2.1)优质像素区域推荐:反转采样超分模型在处理边缘和纹理区域具有明显优势,但在平坦区域表现不佳。因此,并非教师模型的超分结果中的所有像素位置都值得蒸馏,因此,考虑选择优质的像素区域进行学习。根据反转采样模型和随机采样模型各自的超分结果与对应的高分辨率参照图像之间的误差来获得优质像素区域。因此,教师模型的超分结果中的优质像素推荐掩码可表示为:
其中i和j表示像素的位置,Y表示高分辨率参照图像,和/>分别表示学生模型和教师模型的超分结果。
(4.2.2)选择性像素加权:根据式(6)中的优质像素推荐掩码,选择性知识蒸馏损失Lskd可表示为:
该选择性知识蒸馏提取教师模型的超分结果中的有效信息,以协助学生模型的学习,从而进行更好的细节和纹理恢复。
本发明通过双采样的方法,弥补数据差异性偏差的带来的不平衡问题,提高超分模型对困难样本(纹理区域)的重建性能。本发明发现并提出在图像超分任务中训练样本采用随机采样方式导致的长尾问题。设计双采样策略,包括随机采样和反转抽样,用于弥补不均衡的数据特定的偏差问题。引入纹理感知的蒸馏学习方法,用于将反转采样的超分模型中的有效信息迁移到学生模型,其包括连续自蒸馏和选择性知识蒸馏。本发明的超分辨率训练方式减少参数量,获得与成对数据训练出来的全监督教师网络可比的指标和视觉效果,同时模型大小得到了有效减少,与传统训练方式相比有明显提升。本发明可用于智能视频监控、遥感卫星、医学图像、视频应用及其它许多领域的实际需要等。
附图说明
图1是DIV2K训练集子图重建难度分布图。
图2是本发明的基于双采样纹理感知蒸馏学习的不均衡图像超分方法框架。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明主要包括两个部分:1)双采样策略:设计双采样策略来显式增加对少量的困难样本的采样概率,其包括反转采样和随机采样两种采样概率相反的方式训练超分模型,利用这两种采样方式来重新平衡训练数据的分布;2)纹理感知蒸馏学习:通过反转采样数据训练得到教师超分模型,通过蒸馏学习将教师模型中有效的参数级和图像级信息迁移到随机采样的学生超分模型中,从而提升不均衡图像的超分性能。
本发明实施例包括以下步骤:
1)数据集:采用DIV2K数据集(广泛应用于超分任务)训练深度超分模型,其包含800张训练数据和100张验证数据/>其中H表示高分辨率数据,L表示对应的双三次下采样低分辨率数据;
2)数据处理:随机裁剪至指定大小,其中高分辨率数据大小为128*128(2倍、4倍)或者129*129(3倍),低分辨率数据大小为对应倍数的高分辨率数据的下采样尺寸,采用随机翻转进行数据增强;
3)双采样策略:包括随机采样和反转采样。其中随机采样是对于所有的输入样本根据随机采样的准则进行数据采样,而反转采样是根据数据的概率分布进行反转选择,从而达到反转采样的效果。为了实现反转采样,首先需要对训练数据进行分类,即将训练图像以滑动窗口裁剪的方式(高分辨率子图的大小为128*128或者129*129)获得子图,然后输入到预训练好的超分模型预测所有子图的重构难易难度,再根据长尾数据分布公式得到每个类别的样本数量;
4)纹理感知蒸馏学习:将预训练的反转采样超分模型中的参数级和图像级有效信息迁移到随机采样的学生模型中,包括连续自蒸馏和选择性知识蒸馏。连续自蒸馏用于将教师模型中的有效的参数级信息迁移到学生模型,从而增强模型对于困难样本的特征提取能力。选择性知识蒸馏用于从教师模型的超分结果中择优选择误差较小的像素区域来监督学生模型的训练。
5)损失函数:对于模型的整个训练过程中,使用常用的平均绝对误差L1和蒸馏损失LSKD对超分模型进行约束;
6)算法训练步骤:分为两个阶段进行训练;
第一阶段,训练反转采样超分模型,根据反转采样分类数据集采用L1损失训练反转采样超分模型,作为下一阶段初始教师模型参数;
第二阶段,首先加载当前的教师模型参数,接着利用随机采样数据更新学生模型参数,根据纹理感知蒸馏学习更新学生模型和教师模型参数;
重复第二阶段训练直至收敛或者达到最大训练伦次。将预训练的反转采样超分模型中的参数级和图像级的有效信息迁移到随机采样的学生模型中,从而使得最终的模型可以平衡训练数据的长尾效应。
在步骤3)中,所述设计双采样策略来弥补数据特定的不均衡分布问题:
本发明通过设计双采样策略来显式增加对困难样本(边缘和纹理区域)的采样,包括反转采样和随机采样,用于平衡训练数据的分布。
(3.1)反转采样:旨在为样本量较少的尾部数据分配更高的采样概率。为此,首先需要根据样本重建难易程度对其进行分类,然后从各个类别中进行采样
(3.1.1)数据分类:不同于长尾分类任务,其有明确的类别数量。图像超分是一个回归任务,因此,需要将训练数据集分为不同的类别。分类过程如下:
a.将DIV2K训练数据集以滑动窗口的方式裁剪成多个子图像;
b.将所有低分辨率子图输入到预训练好的EDSR_Baseline模型中,并与对应的高分辨率参照图像计算均方误差(MSE),将每张子图的MSE值的大小作为其重建难易程度评估指标,如图1所示,即为DIV2K训练集所有子图的MSE值分布,可以看出训练数据呈现长尾分布;
c.根据不同的重建难度(MSE)将子图进行分类,因此,需要确定不同的MSE阈值。将类别数预定义为10个,按照长尾分类任务中数据集的生成方式,即通过指数函数减少每个类别的训练样本数量,从而可按照如下表达式对DIV2K子图数据集进行划分:
Nk=NK×μk,(1)
其中K是类别总数(设置为10),NK表示训练子图总数量,Nk表示第k个类别的数据量,μ∈(0,1)表示衰减因子。此外,长尾数据集的不平衡因子定义为训练样本中数量最多的类别除以数量最少的类别的值,其范围通常是10到200,默认设置为200。由此,可以获得DIV2K分类数据集合(3.1.2)采样过程:每个类的采样概率与其样本容量成反比,即类别中样本数量越多,该类别中数据的采样概率就越小,从而实现对于尾部类数据的重复利用。反转采样的步骤如下:
a.根据类别k的样本数量计算得到其采样概率:
其中Nk表示第k个类别的数据量,表示每个类别的采样概率;
b.根据反转采样概率选择某个类别;
c.从选定的类别中随机选取1个样本;
通过重复以上操作获得一个批次的训练数据。
(3.2)随机采样:即从训练数据集中的全图像中随机裁剪得到图像块,是图像超分中最常用的数据采样方法。具体而言,输入数据来自一个均匀采样器,其中训练数据集中的每个样本在同一轮训练中以相等概率采样。因此,从训练数据集中采样得到一个样本的概率可表示为:
其中N表示训练样本总数量。随机采样保持原有的数据分布。
在步骤4)中,所述利用随机采样进行第二阶段的纹理感知蒸馏学习;
纹理感知蒸馏学习旨在将有效的参数级和图像级信息从预训练的反转采样超分模型中迁移到随机采样的学生超分模型,包括连续自蒸馏和选择性知识蒸馏。
(4.1)连续自蒸馏:用于将教师模型中的有效的参数级信息转移到学生模型,从而增强模型对于困难样本的特征提取能力。
第一阶段采用反转采样进行超分模型的预训练,有助于充分捕捉纹理和细节信息,为后续训练提供一个良好的初始解。
接下来,将反转采样超分模型的信息蒸馏到随机采样超分模型中,使用教师模型和学生模型的线性组合作为当前迭代的学生模型参数和下一次迭代的教师模型参数。因此,所提出的连续自蒸馏可表示如下:
其中i表示第i次迭代训练,α是权重参数,θs代表学生模型的网络参数,θt代表教师模型的网络参数。两个模型参数的线性插值组成了用于下一次迭代训练的新参数。
(4.2)选择性知识蒸馏:用于从教师模型的超分结果中择优选择误差较小的像素区域来监督学生模型的训练。
传统的均方误差(MSE)或L1损失函数认为所有像素的均等重要,对每个像素进行同等处理。然而,在一幅图像中,纹理和边缘区域比平滑区域承载着更重要的视觉信息。在此,采用选择性知识蒸馏(SKD)来学习教师模型生成的超分结果中的择优像素。
(4.2.1)优质像素区域推荐:反转采样超分模型在处理边缘和纹理区域具有明显优势,但在平坦区域表现不佳。因此,并非教师模型的超分结果中的所有像素位置都值得蒸馏,因此,考虑选择优质的像素区域进行学习。根据反转采样模型和随机采样模型各自的超分结果与对应的高分辨率参照图像之间的误差来获得优质像素区域。因此,教师模型的超分结果中的优质像素推荐掩码可表示为:
其中i和j表示像素的位置,Y表示高分辨率参照图像,和/>分别表示学生模型和教师模型的超分结果。
(4.2.2)选择性像素加权:根据式(6)中的优质像素推荐掩码,选择性知识蒸馏损失Lskd可表示为:
该选择性知识蒸馏提取教师模型的超分结果中的有效信息,以协助学生模型的学习,从而进行更好的细节和纹理恢复。
参见图2,本发明的框架为:
步骤1,获取反转采样超分模型的参数信息。
对原始超分数据集进行切片提取子数据集合,根据重建难度进行类别划分,划分为10类,并根据划分区间确定采样概率,进行概率反转实现反转采样。
根据反转概率进行反转采样,训练超分模型,得到的模型命名为反转采样超分模型。
步骤2,进行纹理感知蒸馏学习,获取纹理感知增强的随机采样超分模型。
纹理感知蒸馏学习:将预训练的反转采样超分模型中的有效参数级和图像级信息迁移到随机采样的学生超分模型中,包括连续自蒸馏和选择性知识蒸馏。采用连续自蒸馏法将有效参数信息从教师超分模型传递到学生超分模型。采用选择性知识蒸馏的方法,从教师超分模型中选取超分结果的择优像素来监督学生超分模型
(2a)将反转采样超分模型的参数作为随机采样超分模型的初始化状态。
(2b)用预训练的反转采样超分模型作为教师模型,用随机采样数据训练随机采样超分模型作为学生模型,使用教师和学生模型参数的线性组合作为新的学生模型参数,即:
等式表示第i次迭代的模型参数更新,其中,α是权重参数,θs代表学生模型的网络参数,θt代表教师模型的网络参数。
然后,将新的模型参数作为下一次迭代的教师模型。
(2c)此外,通过将教师和学生模型的超分结果之间的误差与择优像素形成的择优掩码相乘,引入了选择性知识蒸馏对超分模型进行约束。
2.实验结果以及结果分析:
实验1,消融实验,对于所提出的方法各个模块有效性的验证。
为了验证算法的有效性,将基准模型FSRCNN在Set14数据集上进行消融实验分析,表1为实验结果。其中,‘CSD’表示连续自蒸馏,‘SKD’表示选择性知识蒸馏,‘√’和‘×’表示分别表示使用和不使用对应项的阈值更新。实验结果表明,本发明所提出的连续自蒸馏和选择性知识蒸馏均能有效提升模型的表达能力。
实验2,用本发明在超分基准数据集上进行验证。
为了验证算法的有效性,在DIV2K数据集上训练的超分模型分别对比‘Set5’,‘Set14’,‘B100’以及‘Urban100’的实验结果,其中PSNR表示峰值信噪比,SSIM表示结构相似度指数,这两个指标被广泛应用于图像恢复任务上。表2中列举FSRCNN模型经过随机采样、反转采样以及基于双采样纹理感知蒸馏学习的超分结果的对比。实验结果表明,将反转采样超分模型的有效纹理信息更好地蒸馏到随机采样超分模型中可以有效提高超分结果的质量,并且更好地处理纹理和边缘信息。
表1
Case Index | 1 | 2 | 3 | 4 |
CSD | × | √ | × | √ |
SKD | × | × | √ | √ |
PSNR(dB) | 27.68 | 27.78 | 27.76 | 27.80 |
表2
结合实验1和实验2,本发明在现有的超分数据集上都有了显著的性能优势,验证本发明提出的双采样纹理感知蒸馏学习方法的有效性。
Claims (5)
1.基于双采样纹理感知蒸馏学习的不均衡图像超分方法,其特征在于包括以下步骤:
(1)数据集:采用DIV2K数据集训练深度超分模型;
(2)数据处理:数据随机裁剪至指定大小;
(3)双采样策略:包括随机采样和反转采样;所述随机采样是对于所有的输入样本根据随机采样的准则进行数据采样,所述反转采样是根据数据的概率分布进行反转选择,从而达到反转采样的效果;为了实现反转采样需对训练数据进行分类,将训练图像以滑动窗口裁剪的方式获得子图,然后输入到预训练好的超分模型预测所有子图的重构难易难度,再根据长尾数据分布公式得到每个类别的样本数量;
(4)纹理感知蒸馏学习:将预训练的反转采样超分模型中的参数级和图像级有效信息迁移到随机采样的学生模型中,包括连续自蒸馏和选择性知识蒸馏;所述连续自蒸馏用于将教师模型中的有效的参数级信息迁移到学生模型,从而增强模型对于困难样本的特征提取能力;所述选择性知识蒸馏用于从教师模型的超分结果中择优选择误差较小的像素区域来监督学生模型的训练;
(5)损失函数:对于模型的整个训练过程中,使用常用的平均绝对误差L1和蒸馏损失LSKD对超分模型进行约束;
(6)算法训练步骤:分为两个阶段进行训练;
第一阶段,训练反转采样超分模型,根据反转采样分类数据集采用L1损失训练反转采样超分模型,作为下一阶段初始教师模型参数;
第二阶段,加载当前的教师模型参数,利用随机采样数据更新学生模型参数,根据纹理感知蒸馏学习更新学生模型和教师模型参数;
重复第二阶段训练直至收敛或者达到最大训练轮次;将预训练的反转采样超分模型中的参数级和图像级的有效信息迁移到随机采样的学生模型中,使最终的模型平衡训练数据的长尾效应。
2.如权利要求1所述基于双采样纹理感知蒸馏学习的不均衡图像超分方法,其特征在于在步骤(1)中,所述DIV2K数据集包含800张训练数据和100张验证数据其中,H表示高分辨率数据,L表示对应的双三次下采样低分辨率数据。
3.如权利要求1所述基于双采样纹理感知蒸馏学习的不均衡图像超分方法,其特征在于在步骤(2)中,所述数据随机裁剪至指定大小,其中高分辨率数据大小为128*128或129*129,低分辨率数据大小为对应倍数的高分辨率数据的下采样尺寸,采用随机翻转进行数据增强。
4.如权利要求1所述基于双采样纹理感知蒸馏学习的不均衡图像超分方法,其特征在于在步骤(3)中,所述双采样策略用于弥补数据特定的不均衡分布问题,通过设计双采样策略显式增加对困难样本的采样,所述双采样策略包括反转采样和随机采样,用于平衡训练数据的分布:困难样本指边缘和纹理区域;
(3.1)反转采样:旨在为样本量较少的尾部数据分配更高的采样概率,首先根据样本重建难易程度对其进行分类,然后从各个类别中进行采样;
(3.1.1)数据分类:图像超分是一个回归任务,数据分类过程如下:
a.将DIV2K训练数据集以滑动窗口的方式裁剪成多个子图像;
b.将所有低分辨率子图输入到预训练好的EDSR_Baseline模型中,并与对应的高分辨率参照图像计算均方误差MSE,将每张子图的MSE值的大小作为其重建难易程度评估指标,即为DIV2K训练集所有子图的MSE值分布,得出训练数据呈现长尾分布;
c.根据不同的重建难度将子图进行分类,确定不同的MSE阈值;按长尾分类任务中数据集的生成方式,即通过指数函数减少每个类别的训练样本数量,按如下表达式对DIV2K子图数据集进行划分:
Nk=NK×μk, (1)
其中,K是类别总数,NK表示训练子图总数量,Nk表示第k个类别的数据量,μ∈(0,1)表示衰减因子;获得DIV2K分类数据集合
(3.1.2)采样过程:每个类的采样概率与其样本容量成反比,即类别中样本数量越多,该类别中数据的采样概率就越小,以实现对于尾部类数据的重复利用;反转采样的步骤如下:
a.根据类别k的样本数量计算得到其采样概率:
其中Nk表示第k个类别的数据量,表示每个类别的采样概率;
b.根据反转采样概率选择某个类别;
c.从选定的类别中随机选取1个样本;
重复以上操作获得一个批次的训练数据;
(3.2)随机采样:从训练数据集中的全图像中随机裁剪得到图像块,具体而言,输入数据来自一个均匀采样器,其中训练数据集中的每个样本在同一轮训练中以相等概率采样;从训练数据集中采样得到一个样本的概率表示为:
其中,N表示训练样本总数量;随机采样保持原有的数据分布。
5.如权利要求1所述基于双采样纹理感知蒸馏学习的不均衡图像超分方法,其特征在于在步骤4)中,所述纹理感知蒸馏学习是利用随机采样进行第二阶段的纹理感知蒸馏学习;纹理感知蒸馏学习旨在将有效的参数级和图像级信息从预训练的反转采样超分模型中迁移到随机采样的学生超分模型,包括连续自蒸馏和选择性知识蒸馏;
(4.1)连续自蒸馏:用于将教师模型中的有效的参数级信息转移到学生模型,从而增强模型对于困难样本的特征提取能力;
第一阶段采用反转采样进行超分模型的预训练,有助于充分捕捉纹理和细节信息,为后续训练提供一个良好的初始解;接下来,将反转采样超分模型的信息蒸馏到随机采样超分模型中,使用教师模型和学生模型的线性组合作为当前迭代的学生模型参数和下一次迭代的教师模型参数,所述连续自蒸馏表示如下:
其中,i表示第i次迭代训练,α是权重参数,θs代表学生模型的网络参数,θt代表教师模型的网络参数;两个模型参数的线性插值组成了用于下一次迭代训练的新参数;
(4.2)选择性知识蒸馏:用于从教师模型的超分结果中择优选择误差较小的像素区域来监督学生模型的训练;
在一幅图像中,纹理和边缘区域比平滑区域承载着更重要的视觉信息,采用选择性知识蒸馏学习教师模型生成的超分结果中的择优像素;
(4.2.1)优质像素区域推荐:反转采样超分模型在处理边缘和纹理区域具有明显优势,但在平坦区域表现不佳,考虑选择优质的像素区域进行学习;根据反转采样模型和随机采样模型各自的超分结果与对应的高分辨率参照图像之间的误差来获得优质像素区域,教师模型的超分结果中的优质像素推荐掩码表示为:
其中,i和j表示像素的位置,Y表示高分辨率参照图像,和/>分别表示学生模型和教师模型的超分结果;
(4.2.2)选择性像素加权:根据式(6)中的优质像素推荐掩码,选择性知识蒸馏损失Lskd表示为:
该选择性知识蒸馏提取教师模型的超分结果中的有效信息,以协助学生模型的学习,从而进行更好的细节和纹理恢复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210579510.3A CN114881861B (zh) | 2022-05-25 | 2022-05-25 | 基于双采样纹理感知蒸馏学习的不均衡图像超分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210579510.3A CN114881861B (zh) | 2022-05-25 | 2022-05-25 | 基于双采样纹理感知蒸馏学习的不均衡图像超分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881861A CN114881861A (zh) | 2022-08-09 |
CN114881861B true CN114881861B (zh) | 2024-06-04 |
Family
ID=82677913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210579510.3A Active CN114881861B (zh) | 2022-05-25 | 2022-05-25 | 基于双采样纹理感知蒸馏学习的不均衡图像超分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881861B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204770B (zh) * | 2022-12-12 | 2023-10-13 | 中国公路工程咨询集团有限公司 | 一种用于桥梁健康监测数据异常检测的训练方法及装置 |
CN117372785B (zh) * | 2023-12-04 | 2024-03-26 | 吉林大学 | 一种基于特征簇中心压缩的图像分类方法 |
CN117557916B (zh) * | 2024-01-11 | 2024-03-19 | 大连理工大学 | 一种结合文本图像生成的遥感目标分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111256A (zh) * | 2019-04-28 | 2019-08-09 | 西安电子科技大学 | 基于残差蒸馏网络的图像超分辨重建方法 |
CN113240580A (zh) * | 2021-04-09 | 2021-08-10 | 暨南大学 | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 |
WO2021185225A1 (zh) * | 2020-03-16 | 2021-09-23 | 徐州工程学院 | 基于自适应调整的图像超分辨率重建方法 |
CN113538233A (zh) * | 2021-06-25 | 2021-10-22 | 华东师范大学 | 一种基于自蒸馏对比学习的超分辨率模型压缩和加速方法 |
WO2022002943A1 (en) * | 2020-06-29 | 2022-01-06 | L'oréal | Semantic Relation Preserving Knowledge Distillation For Image-To-Image Translation |
CN114049261A (zh) * | 2022-01-13 | 2022-02-15 | 武汉理工大学 | 一种关注前景信息的图像超分辨率重建方法 |
CN114359039A (zh) * | 2021-11-22 | 2022-04-15 | 杭州当虹科技股份有限公司 | 基于知识蒸馏的图像超分方法 |
-
2022
- 2022-05-25 CN CN202210579510.3A patent/CN114881861B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111256A (zh) * | 2019-04-28 | 2019-08-09 | 西安电子科技大学 | 基于残差蒸馏网络的图像超分辨重建方法 |
WO2021185225A1 (zh) * | 2020-03-16 | 2021-09-23 | 徐州工程学院 | 基于自适应调整的图像超分辨率重建方法 |
WO2022002943A1 (en) * | 2020-06-29 | 2022-01-06 | L'oréal | Semantic Relation Preserving Knowledge Distillation For Image-To-Image Translation |
CN113240580A (zh) * | 2021-04-09 | 2021-08-10 | 暨南大学 | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 |
CN113538233A (zh) * | 2021-06-25 | 2021-10-22 | 华东师范大学 | 一种基于自蒸馏对比学习的超分辨率模型压缩和加速方法 |
CN114359039A (zh) * | 2021-11-22 | 2022-04-15 | 杭州当虹科技股份有限公司 | 基于知识蒸馏的图像超分方法 |
CN114049261A (zh) * | 2022-01-13 | 2022-02-15 | 武汉理工大学 | 一种关注前景信息的图像超分辨率重建方法 |
Non-Patent Citations (1)
Title |
---|
基于双注意力机制信息蒸馏网络的图像超分辨率复原算法;王素玉等;计算机应用;20210625;第42卷(第01期);239-244 * |
Also Published As
Publication number | Publication date |
---|---|
CN114881861A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114881861B (zh) | 基于双采样纹理感知蒸馏学习的不均衡图像超分方法 | |
CN109325550B (zh) | 基于图像熵的无参考图像质量评价方法 | |
CN110111256B (zh) | 基于残差蒸馏网络的图像超分辨重建方法 | |
CN107464217B (zh) | 一种图像处理方法及装置 | |
CN110751612A (zh) | 多通道多尺度卷积神经网络的单幅图像去雨方法 | |
CN104199627B (zh) | 基于多尺度在线字典学习的可分级视频编码系统 | |
CN110276726A (zh) | 一种基于多通道网络先验信息引导的图像去模糊方法 | |
CN109671029A (zh) | 基于伽马范数最小化的图像去噪算法 | |
DE102017006563A1 (de) | Bildpatchabgleich unter Nutzung eines wahrscheinlichkeitsbasierten Abtastens auf Grundlage einer Vorhersage | |
CN112183742A (zh) | 基于渐进式量化和Hessian信息的神经网络混合量化方法 | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
CN113658130B (zh) | 基于双重孪生网络的无参考屏幕内容图像质量评估方法 | |
CN109615576B (zh) | 基于级联回归基学习的单帧图像超分辨重建方法 | |
CN111461978A (zh) | 一种基于注意力机制的逐分辨率提升图像超分辨率复原方法 | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
Wang et al. | No-reference stereoscopic image quality assessment using quaternion wavelet transform and heterogeneous ensemble learning | |
CN116777745A (zh) | 一种基于稀疏自适应聚类的图像超分辨率重建方法 | |
CN110163855B (zh) | 一种基于多路深度卷积神经网络的彩色图像质量评价方法 | |
CN116309178A (zh) | 一种基于自适应注意力机制网络的可见光图像去噪方法 | |
CN116823627A (zh) | 一种基于图像复杂度评价的超大尺寸图像快速去噪方法 | |
Shen et al. | Feature-segmentation strategy based convolutional neural network for no-reference image quality assessment | |
CN111724331A (zh) | 一种基于生成网络的多孔介质图像重建方法 | |
CN117853322A (zh) | 一种用于提升超分gan网络感知能力的训练系统及方法 | |
CN117726602A (zh) | 基于带状池化的息肉分割方法及系统 | |
CN116823782A (zh) | 一种基于图卷积和多尺度特征的无参考图像质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |