CN114022359A - 图像超分辨率模型训练方法、装置、存储介质及设备 - Google Patents
图像超分辨率模型训练方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN114022359A CN114022359A CN202111292180.1A CN202111292180A CN114022359A CN 114022359 A CN114022359 A CN 114022359A CN 202111292180 A CN202111292180 A CN 202111292180A CN 114022359 A CN114022359 A CN 114022359A
- Authority
- CN
- China
- Prior art keywords
- hyper
- image
- resolution
- segmentation
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 125
- 230000006870 function Effects 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 description 15
- 241000282414 Homo sapiens Species 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000016776 visual perception Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明一种图像超分辨率模型训练方法、装置、存储介质及设备,所述方法包括:获取超分数据集,采用所述超分数据集对超分主干网络进行训练;获取超分主干网络当前训练输出的目标超分图像,并计算目标超分图像与超分模板图像之间的损失,得到第一损失项;将目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,输出对应的目标分割图像和分割模板图像;计算目标分割图像和分割模板图像之间的损失,得到第二损失项;根据第一损失项和第二损失项对超分主干网络进行迭代训练。本发明通过提出了一种基于语义分割约束的超分训练方法,在保证超分指标可比的情况下,显著提升了超分图像的语义分割指标。
Description
技术领域
本发明属于图像超分辨率模型训练技术领域,尤其涉及一种图像超分辨率模型训练方法、装置、存储介质及设备。
背景技术
人们从外界接收的各种信息中80%以上是通过视觉获得的,视觉是人类最重要的获取外界信息的感知。让计算机能“理解”人类的视觉,赋予计算机处理人类视觉感知的能力,也是人与计算机之间进行协同工作的最便捷的方式之一。
图像超分辨率重构(以下简称超分)是指通过对数字图像信号的分析,采用软件算法的方式,在不提升光学成像设备的条件下,由一帧或多帧图像重建、恢复出更高分辨率图像或视频的技术。目前,图像超分技术在医学影像、监控安防、摇杆测控以及影音娱乐等领域得到了广泛应用。
然而,目前主流的图像超分只关注于人眼对图像的视觉舒适度,没有充分考虑超分图像被计算机理解的能力,而超分图像在后续计算机视觉任务中最直观的价值体现在该超分图像能为后续语义分割准确度的提升带来何种贡献,因此目前在超分辨图像的基础上再进行图像分割的性能不理想。
发明内容
本发明实施例提供一种图像超分辨率模型训练方法、装置、存储介质及设备,旨在解决目前在超分辨图像的基础上再进行图像分割的性能不理想的技术问题。
本发明实施例是这样实现的,一种图像超分辨率模型训练方法,所述方法包括:
获取超分数据集,采用所述超分数据集对超分主干网络进行训练;
获取所述超分主干网络当前训练输出的目标超分图像,并计算所述目标超分图像与超分模板图像之间的损失,得到第一损失项;
将所述目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,所述目标超分图像经过所述语义分割网络生成目标分割图像,所述超分模板图像经过所述语义分割网络生成分割模板图像;
计算所述目标分割图像和所述分割模板图像之间的损失,得到第二损失项;
根据所述第一损失项和所述第二损失项确定出所述超分主干网络的当前总损失函数,并根据所述当前总损失函数对所述超分主干网络进行迭代训练,以训练得到图像超分辨率模型。
优选地,获取所述超分主干网络当前训练输出的目标超分图像的步骤之后,还包括:
将所述目标超分图像与所述超分模板图像输入到预训练的VGG网络当中,以输出所述目标超分图像和所述超分模板图像的高维特征;
计算所述目标超分图像和所述超分模板图像的高维特征中数据分布的差异,得到第三损失项;
其中,所述当前总损失函数还根据所述第三损失项确定得到。
优选地,将所述目标超分图像与所述超分模板图像输入到预训练的VGG网络当中,以输出所述目标超分图像和所述超分模板图像的高维特征的步骤之后,还包括:
计算所述目标超分图像和所述超分模板图像的高维特征做Gram矩阵后二者的分布差异,得到第四损失项;
其中,所述当前总损失函数还根据所述第四损失项确定得到。
优选地,所述当前总损失函数满足以下条件式:
Ltotal=α×Lvis+β×Lfeat+γ×Lsem+δ×Ltext
式中,Ltotal代表所述当前总损失函数,Lvis代表所述第一损失项,Lsem代表所述第二损失项,Lfeat代表所述第三损失项,Ltext代表所述第四损失项,α、β、γ和δ分别代表Lvis、Lfeat、Lsem和Ltext的权重。
优选地,α取值为1,β取值为10-3-10-1之间,γ取值为10-2-1.0之间,δ取值为10-6-10-4之间。
优选地,所述语义分割网络为所述超分主干网络的一支旁路。
本发明实施例还提供了一种图像超分辨率模型训练装置,所述装置包括:
图像训练模块,用于获取超分数据集,采用所述超分数据集对超分主干网络进行训练;
第一损失计算模块,用于获取所述超分主干网络当前训练输出的目标超分图像,并计算所述目标超分图像与超分模板图像之间的损失,得到第一损失项;
图像输入模块,用于将所述目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,所述目标超分图像经过所述语义分割网络生成目标分割图像,所述超分模板图像经过所述语义分割网络生成分割模板图像;
第二损失计算模块,用于计算所述目标分割图像和所述分割模板图像之间的损失,得到第二损失项;
所述图像训练模块还用于根据所述第一损失项和所述第二损失项确定出所述超分主干网络的当前总损失函数,并根据所述当前总损失函数对所述超分主干网络进行迭代训练,以训练得到图像超分辨率模型。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的图像超分辨率模型训练方法。
本发明实施例还提供了一种图像超分辨率模型训练设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的图像超分辨率模型训练方法。
本发明所达到的有益效果为:通过提出一种基于语义分割约束的图像超分辨率模型训练方法,将语义分割损失作为超分辨模型训练的约束项,从而将超分问题与分割问题作为一个整体进行考虑,训练得到的超分模型能够在保证超分指标可比的情况下,提升超分结果对语义分割的准确度,在不添加训练参数的前提下,显著提升了超分图像的语义分割指标,使得在超分辨图像的基础上再进行图像分割具有理想性能。
附图说明
图1是本发明实施例一当中的图像超分辨率模型训练方法的流程图;
图2-图3是本发明实施例二当中的图像超分辨率模型训练方法的流程图;
图4为本发明实施例三当中的图像超分辨率模型训练装置的结构框图;
图5是本发明实施例四当中的图像超分辨率模型训练设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
请参阅图1,所示为本发明实施例一当中的图像超分辨率模型训练方法,所述方法具体包括步骤S01-步骤S05。
步骤S01,获取超分数据集,采用所述超分数据集对超分主干网络进行训练。
其中,超分主干网络可以为但不限于目前四个主流的超分主干网络SRResNet、EDSR、CARN和RCAN当中的任意一种。
步骤S02,获取所述超分主干网络当前训练输出的目标超分图像,并计算所述目标超分图像与超分模板图像之间的损失,得到第一损失项。
其中,第一损失项用于度量目标超分图像与超分模板图像的像素级差异,第一损失项通常可以选择L1 loss(绝对损失函数)或L2 loss(平方损失函数)。
步骤S03,将所述目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,所述目标超分图像经过所述语义分割网络生成目标分割图像,所述超分模板图像经过所述语义分割网络生成分割模板图像。
其中,语义分割网络可以为但不限于诸如DeepLabV3、U-net、SegNet、PSPNet等网络当中的任意一种。
步骤S04,计算所述目标分割图像和所述分割模板图像之间的损失,得到第二损失项。
其中,第二损失项Lsem又称语义损失项,用于度量目标超分图像和超分模板图像在经过DeepLabV3后分割图像之间的差异,具体可以通过计算二者图像的交叉熵量化距离来表征二者差异。
步骤S05,根据所述第一损失项和所述第二损失项确定出所述超分主干网络的当前总损失函数,并根据所述当前总损失函数对所述超分主干网络进行迭代训练,以训练得到图像超分辨率模型。
在本实施例一些可选实施例当中,当前总损失函数可以基于第一损失项和第二损失项加权求和计算得到。在训练过程当中,通过不断计算网络的当前总损失函数,并根据当前总损失函数对超分主干网络进行迭代训练,找到全局最优,完成模型训练。具体可以对该损失函数采用小批量随机梯度下降的优化迭代方式,迭代过程如下:总共900个epoch(世代),每个epoch上进行全部训练数据集的遍历,每次遍历读入2张训练图片作为一个batch。一个iteration(迭代)训练一次batch数量的样本。每个iteration计算一次训练集上的loss,并用这个loss计算回传的梯度以更新网络的训练参数。每个epoch后都会在测试集上计算一次PSNR、SSIM、PA、mIoU性能指标,把这900个epoch的性能指标平均值中的最优值的该次训练的网络模型保存下来,得到最终训练的模型。
综上,本实施例当中的图像超分辨率模型训练方法,通过提出一种基于语义分割约束的图像超分辨率模型训练方法,将语义分割损失作为超分辨模型训练的约束项,从而将超分问题与分割问题作为一个整体进行考虑,训练得到的超分模型能够在保证PSNR(Peak Signal noise ratio峰值信噪比)、SSIM(Structural Similarity结构相似性)等指标与常规损失函数训练出的结果可比的情况下,稳定且显著地提升mIoU(MeanIntersection over Union均交并比)、FWIoU(Frequency Weighted Intersection overUnion频率加权交并比)、PA(Pixel Accuracy像素准确度)、MPA(Mean Pixel Accuracy平均像素准确度)等语义分割指标,使得在超分辨图像的基础上再进行图像分割具有理想性能。
实施例二
请参阅图2,所示为本发明实施例二当中的图像超分辨率模型训练方法,所述方法具体包括步骤S11-步骤S18。
步骤S11,获取超分数据集,采用所述超分数据集对超分主干网络进行训练。
步骤S12,获取所述超分主干网络当前训练输出的目标超分图像,并计算所述目标超分图像与超分模板图像之间的损失,得到第一损失项Lvis。
其中,第一损失项Lvis用于度量目标超分图像与超分模板图像的像素级差异,第一损失项通常可以选择L1 loss(绝对损失函数)或L2 loss(平方损失函数),目前超分任务通常采用L1 loss作为逐像素损失项。其定义为:
步骤S13,将所述目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,所述目标超分图像经过所述语义分割网络生成目标分割图像,所述超分模板图像经过所述语义分割网络生成分割模板图像。
需要说明的是,在训练超分主干网络之前,还需要对语义分割网络进行训练。对于语义分割网络训练阶段,需要用分割数据集训练一个分割网络,理论上任何有意义的语义分割神经网络都可以被采用,不失一般性,本实施例选取了稳定的DeepLabV3作为语义分割网络进行训练,通过这个过程的训练,从分割数据集上学习到了语义分割先验知识。在其他实施例当中,DeepLabV3还可以被诸如U-net、SegNet、PSPNet等网络替代。
随后,在超分主干网络训练。用超分数据集进行超分主干网络的训练,在此过程中,需要将由之前预训练好的语义分割网络加入到整体模型中,成为超分主干网络的一支旁路,为随机初始化的超分主干网络生成的结果进行语义分割损失项的计算。常规的超分算法没有这样的分割旁路,损失函数也只有L1损失项,它们的学习参数从随机初始化开始就主要朝着逐像素损失最小的方向进行收敛,必然导致学习到的模型仅仅满足HVS(HumanVisual System人类视觉系统)而忽略了计算机视觉的感知。值得注意的是,在超分主干网络训练阶段,DeepLabV3的参数不参与学习。由于它来自此前的分割任务,它能对超分网络的训练提供非常直观的语义先验,相对于没有语义分割能力的超分主干网络而言,提供了额外的系统信息。
步骤S14,计算所述目标分割图像和所述分割模板图像之间的损失,得到第二损失项Lsem。
其中,第二损失项Lsem又称语义损失项,用于度量目标超分图像和超分模板图像在经过DeepLabV3后分割图像之间的交叉熵量化距离(表征二者差异),其定义如下:
其中,M是分割的类别总数,γ是DeepLabV3的输出结果,它是一个高、宽、通道数分别为H、W、M的特征向量,是处于位置(h,w)处的像素点上长度为M的独热向量,向量上的元素只有0和1两种取值,如果目标超分图像经过DeepLab后,生成的特征向量在坐标(h,w)处的像素点类别和超分模板图像经过DeepLab后在像素点(h,w)处的像素点类别一致就取1,否则为0。表示SR图像经过DeepLab的特征映射后,经过softmax计算,得到的关于坐标点(h,w)处的像素点属于类别c的概率。
步骤S15,将所述目标超分图像与所述超分模板图像输入到预训练的VGG网络当中,以输出所述目标超分图像和所述超分模板图像的高维特征。
另外,在训练研究中发现,加入VGG网络引入感知损失项能更好地保证PSNR,并且对语义分割的指标有提升作用。
步骤S16,计算所述目标超分图像和所述超分模板图像的高维特征中数据分布的差异,得到第三损失项Lfeat。
其中,第三损失项Lfeat又称感知损失,是通过计算目标超分图像和超分模板图像在VGG高维特征的欧氏距离来度量两幅图像在高层全局信息上的差异。其定义为:
步骤S17,计算所述目标超分图像和所述超分模板图像的高维特征做Gram矩阵后二者的分布差异,得到第四损失项Ltext。
其中,第四损失项Ltext又称纹理损失,纹理损失在感知损失定义的高维向量空间上进一步加入Gram matrix格拉姆矩阵来提取与纹理相关的特征。在训练过程中,网络学习生成与超分模板图像具有相同局部纹理的目标超分图像。纹理损失定义为:
步骤S18,根据所述第一损失项、所述第二损失项、所述第三损失项和所述第四损失项计算出所述超分主干网络的当前总损失函数,并根据所述当前总损失函数对所述超分主干网络进行迭代训练,以训练得到图像超分辨率模型。
其中,当前总损失函数满足以下条件式:
Ltotal=α×Lvis+β×Lfeat+γ×Lsem+δ×Ltext
式中,Ltotal代表所述当前总损失函数,Lvis代表所述第一损失项,Lsem代表所述第二损失项,Lfeat代表所述第三损失项,Ltext代表所述第四损失项,α、β、γ和δ分别代表Lvis、Lfeat、Lsem和Ltext的权重。在本实施例一些具体情况当中,α取值为1,β取值为10-3-10-1之间,γ取值为10-2-1.0之间,δ取值为10-6-10-4之间。
即,总损失为上述损失的加权求和。通过设置视觉损失系数α、感知损失系数β、语义损失系数γ、纹理损失系数δ调控四者的权重,实验中可以用控制变量的方式设置β、γ分别为0以观察其对超分结果和分割结果的影响。
此外,模型训练好后,推理阶段(即实际采用训练模型对实际图像进行超分)不再需要分割网络、VGG网络。输入的原始图像,经过超分主干网络即可得到能提升分割性能的超分结果。这种提升是在不添加任何可学习参数的条件下得到的,网络的处理速度和常规训练出来的超分网络的处理速度一致,但有着更高的分割准确率。并且,由于在训练时分割约束的处理逻辑独立于超分主干网络的处理逻辑,可以独立地设计这两个部分。
具体来说,请参阅图3,所示为本实施例当中的模型训练流程图,训练时,本次迭代的前向传播中超分主干网络(SR backbone)生成当前的目标超分图像(以下简称SR),这个SR结果将分三路进行损失函数项的计算。第一路是SR与超分模板图像(以下简称HR)进行L1损失的计算,得到Lvis损失项。第二路将SR输入到DeepLabV3网络,得到SR的分割图SR_SEG(即目标分割图像),同时将HR也输入到DeepLabV3并通过处理得到HR_SEG(分割模板图像),将这个HR_SEG作为SR_SEG的训练标签,一起进行交叉熵的计算。这里有一个设计的处理细节,DeepLabV3网络输出的结果是一个形如[N,M,H,W]的张量,其中N是批量大小,M是分割类别总数,H是该网络读入图片的高,W是宽。对HR的DeepLabV3输出结果在M所在维度上做torch.max()操作记录最大值所在的索引,这个索引将会落在[0,M-1]的范围内,数值表示各个类别的标签。Pytorch中的CrossEntropyLoss()类的forward(input,target)方法包含两个位置参数input和target,SR经过DeepLabV3的特征向量作为input传入,HR_SEG作为target传入。CrossEntropyLoss内部会将input进行softmax操作映射到概率空间,同时也会将target的类别标签进行one-hot独热编码处理,再计算交叉熵,这样就能衡量SR在DeepLabV3特征空间的概率分布与将HR_SEG作为分割标签数据分布两者之间的差异,由此得到Lsem损失项。第三路将SR、HR分别输入到VGG网络得到SR、HR的高维特征,并通过比较两者的欧氏距离衡量SR和HR在VGG特征空间中数据分布的差异,由此得到Lfeat损失项。
此外,在一些实验中还进行了第四路损失项的设置。第四路损失项是第三路损失项的升级,它同样也需要将SR、HR分别输入到VGG特征空间,但不同的是,它不直接对该向量进行欧式距离的计算,而是通过将两个VGG特征向量做Gram矩阵后再计算二者的分布差异,得到Ltext。Gram矩阵是n维欧氏空间中任意k个向量两两的内积所组成的矩阵,认为是可以度量向量自身的特性以及各个维度向量两两之间的关系。Gram矩阵被广泛应用在风格迁移任务中,认为它对提取纹理细节特征的浅层特征向量和对提取轮廓、大小的深层特征向量之间的隐藏联系具有良好的刻画能力,在超分视觉任务中也有一定的应用。但的实验结果表明该项损失对人眼视觉感知指标和计算机视觉的语义分割指标都没有明显的增强作用,故在最终选择出来的Ltotal中舍弃了这一项。
关于训练数据集的选用,由于算法分为两个阶段,每个阶段对应不同的模型和视觉任务,所以数据集也分为两套,即超分数据集和分割数据集。由于分割网络的训练需要为超分网络提供语义先验,所以分割的对象和超分的对象需要一定的关联性。为了方便验证我们理论的有效性,针对户外场景进行分割和超分。SFTGAN创建了一个用于户外场景分割的数据集OutdoorSeg,它包含9900张图片,其中8447张图片来自ADE数据集,899张山地图片来自Flickr,554张动物图片来自COCO数据集。OutdoorSeg内同时包含对应的人工标注的分割标签,涵盖7个类别,分别是天空、水域、建筑、草地、植被、动物、山体。每张分割图像中不属于上述类别的图像部分统一标记为其它类。同时他们还提供了一个包含300张户外场景及其分割图像的测试数据集OutdoorSceneTest300(OST300),可以用于超分和分割任务。我们在DeepLabV3网络训练的阶段采用OutdoorSeg进行训练,并用OST300进行测试。
对于超分网络的训练,我们从DIV2K中分别筛选出457和39张与户外相关的高分辨率图像,作为超分网络HR样本的训练集和验证集,对应的4×双三次差值下采样图片作为LR样本;超分测试集中的HR来自前面提到的OST300,并对OST300进行同样的下采样操作获得LR测试样本。通过这种方式,我们的OST300数据集除了HR、HR对应的人工标注分割图HR_Seg之外,还有对应的低分辨率数据集LR,满足了分割和超分的需求,可以用于测试SR经过分割网络后所得结果与人工标注的标签之间的差距。
为了验证语义损失项的有效性和对不同网络结构的兼容性,实际在四个主流的超分主干网络(SRResNet、EDSR、CARN、RCAN)上进行了测试,这些网络在超分任务中经常被直接使用或者被间接地构成复杂模型的一部分。具体是在不同损失项权重系数下进行了实验,并且用PA、MPA、FWIoU、mIoU指标衡量超分结果的语义分割提升能力,用PSNR、SSIM指标衡量超分结果的人眼视觉舒适度。由于测试集包含人工标注的分割标签,所以我们会将SR的分割图分别与HR的分割图、人工标注分割图(ground truth)进行分割指标的衡量。实验中,我们设置Lvis的系数α为1.0,我们为Lfeat系数β、Lsem系数γ、Ltext系数δ的每一项都设置几个不同数量级的base weight,分别是β1=10-1,β2=10-2,β3=10-3,γ1=1.0,γ2=10-1,γ3=10-2,δ1=10-4,δ2=10-5,δ3=10-6,并对不同权重的损失项进行组合实验。我们在测试多组权重系数的组合下,选出了每个组合下两种指标综合考虑最佳的设置。两表中权重系数未显示,具体权重分别为:1×Lvis,1×Lvis+10-5×Ltext,1×Lvis+10-2×Lfeat,1×Lvis+10-2×Lsem,1×Lvis+10-2×Lsem+10-3×Lfeat。
下表1-表2为最佳权重组合在EDSR超分主干网络上的结果,加粗数字表示所在指标中的最佳损失项组合,下划线数字次之。
表1(SR’s segmentation/ground truth):
表2(SR’s segmentation/HR’s segmentation):
表(2)
此外,下表3-图4为多个模型上使用Lvis+Lsem+Lfeat损失组合得出的各项指标与Lvis的对比结果,加粗数字表示所在指标项目中的最优组合,左边数字表示使用Lvis+Lsem+Lfeat损失的结果,右边数字表示使用Lvis的结果。
表3(SR’s segmentation/ground truth):
表4(SR’s segmentation/HR’s segmentation):
可见,通过4个主流稳定的超分模型作为训练的主干网络,并设置多组损失项以及损失项权重系数进行对比实验,我们证实了我们设计的损失函数具有如下特点:在尽可能不对人眼视觉感知指标照成负面影响的条件下,显著提升了语义分割相关指标。同时该项损失具有良好的兼容性,可以用在主流损失函数的设计中。
实施例三
本发明另一方面还提出一种图像超分辨率模型训练装置,请参阅图4,所示为本发明实施例三提供的图像超分辨率模型训练装置,所述装置包括:
图像训练模块11,用于获取超分数据集,采用所述超分数据集对超分主干网络进行训练;
第一损失计算模块12,用于获取所述超分主干网络当前训练输出的目标超分图像,并计算所述目标超分图像与超分模板图像之间的损失,得到第一损失项;
图像输入模块13,用于将所述目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,所述目标超分图像经过所述语义分割网络生成目标分割图像,所述超分模板图像经过所述语义分割网络生成分割模板图像;
第二损失计算模块14,用于计算所述目标分割图像和所述分割模板图像之间的损失,得到第二损失项;
所述图像训练模块11还用于根据所述第一损失项和所述第二损失项确定出所述超分主干网络的当前总损失函数,并根据所述当前总损失函数对所述超分主干网络进行迭代训练,以训练得到图像超分辨率模型。
优选地,在本发明一些可选实施例当中,所述图像超分辨率模型训练装置还包括:
图像处理模块,用于将所述目标超分图像与所述超分模板图像输入到预训练的VGG网络当中,以输出所述目标超分图像和所述超分模板图像的高维特征;
第三损失计算模块,用于计算所述目标超分图像和所述超分模板图像的高维特征中数据分布的差异,得到第三损失项;
其中,所述当前总损失函数还根据所述第三损失项确定得到。
优选地,在本发明一些可选实施例当中,所述图像超分辨率模型训练装置还包括:
第四损失计算模块,用于计算所述目标超分图像和所述超分模板图像的高维特征做Gram矩阵后二者的分布差异,得到第四损失项;
其中,所述当前总损失函数还根据所述第四损失项确定得到。
优选地,所述当前总损失函数满足以下条件式:
Ltotal=α×Lvis+β×Lfeat+γ×Lsem+δ×Ltext
式中,Ltotal代表所述当前总损失函数,Lvis代表所述第一损失项,Lsem代表所述第二损失项,Lfeat代表所述第三损失项,Ltext代表所述第四损失项,α、β、γ和δ分别代表Lvis、Lfeat、Lsem和Ltext的权重。
优选地,α取值为1,β取值为10-3-10-1之间,γ取值为10-2-1.0之间,δ取值为10-6-10-4之间。
优选地,所述语义分割网络为所述超分主干网络的一支旁路。
上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
综上,本实施例当中的图像超分辨率模型训练装置,通过提出一种基于语义分割约束的图像超分辨率模型训练方法,将语义分割损失作为超分辨模型训练的约束项,从而将超分问题与分割问题作为一个整体进行考虑,训练得到的超分模型能够在保证超分指标可比的情况下,提升超分结果对语义分割的准确度,在不添加训练参数的前提下,显著提升了超分图像的语义分割指标,使得在超分辨图像的基础上再进行图像分割具有理想性能。
实施例四
请参阅图5,本发明实施例四提出一种图像超分辨率模型训练设备,包括处理器10、存储器20以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器10执行所述程序30时实现如上述的图像超分辨率模型训练方法。
其中,处理器10在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是图像超分辨率模型训练设备的内部存储单元,例如该图像超分辨率模型训练设备的硬盘。存储器20在另一些实施例中也可以是图像超分辨率模型训练设备的外部存储装置,例如图像超分辨率模型训练设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。优选地,存储器20还可以既包括图像超分辨率模型训练设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于图像超分辨率模型训练设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
需要指出的是,图5示出的结构并不构成对图像超分辨率模型训练设备的限定,在其它实施例当中,该图像超分辨率模型训练设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
综上,本实施例当中的图像超分辨率模型训练设备,通过提出一种基于语义分割约束的图像超分辨率模型训练方法,将语义分割损失作为超分辨模型训练的约束项,从而将超分问题与分割问题作为一个整体进行考虑,训练得到的超分模型能够在保证超分指标可比的情况下,提升超分结果对语义分割的准确度,在不添加训练参数的前提下,显著提升了超分图像的语义分割指标,使得在超分辨图像的基础上再进行图像分割具有理想性能。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的图像超分辨率模型训练方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种图像超分辨率模型训练方法,其特征在于,所述方法包括:
获取超分数据集,采用所述超分数据集对超分主干网络进行训练;
获取所述超分主干网络当前训练输出的目标超分图像,并计算所述目标超分图像与超分模板图像之间的损失,得到第一损失项;
将所述目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,所述目标超分图像经过所述语义分割网络生成目标分割图像,所述超分模板图像经过所述语义分割网络生成分割模板图像;
计算所述目标分割图像和所述分割模板图像之间的损失,得到第二损失项;
根据所述第一损失项和所述第二损失项确定出所述超分主干网络的当前总损失函数,并根据所述当前总损失函数对所述超分主干网络进行迭代训练,以训练得到图像超分辨率模型。
2.如权利要求1所述的图像超分辨率模型训练方法,其特征在于,获取所述超分主干网络当前训练输出的目标超分图像的步骤之后,还包括:
将所述目标超分图像与所述超分模板图像输入到预训练的VGG网络当中,以输出所述目标超分图像和所述超分模板图像的高维特征;
计算所述目标超分图像和所述超分模板图像的高维特征中数据分布的差异,得到第三损失项;
其中,所述当前总损失函数还根据所述第三损失项确定得到。
3.如权利要求2所述的图像超分辨率模型训练方法,其特征在于,将所述目标超分图像与所述超分模板图像输入到预训练的VGG网络当中,以输出所述目标超分图像和所述超分模板图像的高维特征的步骤之后,还包括:
计算所述目标超分图像和所述超分模板图像的高维特征做Gram矩阵后二者的分布差异,得到第四损失项;
其中,所述当前总损失函数还根据所述第四损失项确定得到。
4.如权利要求3所述的图像超分辨率模型训练方法,其特征在于,所述当前总损失函数满足以下条件式:
Ltotal=α×Lvis+β×Lfeat+γ×Lsem+δ×Ltext
式中,Ltotal代表所述当前总损失函数,Lvis代表所述第一损失项,Lsem代表所述第二损失项,Lfeat代表所述第三损失项,Ltext代表所述第四损失项,α、β、γ和δ分别代表Lvis、Lfeat、Lsem和Ltext的权重。
5.如权利要求4所述的图像超分辨率模型训练方法,其特征在于,α取值为1,β取值为10-3-10-1之间,γ取值为10-2-1.0之间,δ取值为10-6-10-4之间。
6.如权利要求1-5任一项所述的图像超分辨率模型训练方法,其特征在于,所述语义分割网络为所述超分主干网络的一支旁路。
7.一种图像超分辨率模型训练装置,其特征在于,所述装置包括:
图像训练模块,用于获取超分数据集,采用所述超分数据集对超分主干网络进行训练;
第一损失计算模块,用于获取所述超分主干网络当前训练输出的目标超分图像,并计算所述目标超分图像与超分模板图像之间的损失,得到第一损失项;
图像输入模块,用于将所述目标超分图像和所述超分模板图像分别输入到预训练的语义分割网络当中,所述目标超分图像经过所述语义分割网络生成目标分割图像,所述超分模板图像经过所述语义分割网络生成分割模板图像;
第二损失计算模块,用于计算所述目标分割图像和所述分割模板图像之间的损失,得到第二损失项;
所述图像训练模块还用于根据所述第一损失项和所述第二损失项确定出所述超分主干网络的当前总损失函数,并根据所述当前总损失函数对所述超分主干网络进行迭代训练,以训练得到图像超分辨率模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的图像超分辨率模型训练方法。
9.一种图像超分辨率模型训练设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一所述的图像超分辨率模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111292180.1A CN114022359A (zh) | 2021-11-03 | 2021-11-03 | 图像超分辨率模型训练方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111292180.1A CN114022359A (zh) | 2021-11-03 | 2021-11-03 | 图像超分辨率模型训练方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022359A true CN114022359A (zh) | 2022-02-08 |
Family
ID=80059936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111292180.1A Pending CN114022359A (zh) | 2021-11-03 | 2021-11-03 | 图像超分辨率模型训练方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022359A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147280A (zh) * | 2022-07-15 | 2022-10-04 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法、装置和设备 |
CN116883673A (zh) * | 2023-09-08 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 语义分割模型训练方法、装置、设备及存储介质 |
CN117197756A (zh) * | 2023-11-03 | 2023-12-08 | 深圳金三立视频科技股份有限公司 | 隐患区域入侵检测方法、装置、设备和存储介质 |
CN117437249A (zh) * | 2023-12-21 | 2024-01-23 | 深圳大学 | 眼底血管图像的分割方法、终端设备及存储介质 |
-
2021
- 2021-11-03 CN CN202111292180.1A patent/CN114022359A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147280A (zh) * | 2022-07-15 | 2022-10-04 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、图像处理方法、装置和设备 |
CN116883673A (zh) * | 2023-09-08 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 语义分割模型训练方法、装置、设备及存储介质 |
CN116883673B (zh) * | 2023-09-08 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 语义分割模型训练方法、装置、设备及存储介质 |
CN117197756A (zh) * | 2023-11-03 | 2023-12-08 | 深圳金三立视频科技股份有限公司 | 隐患区域入侵检测方法、装置、设备和存储介质 |
CN117197756B (zh) * | 2023-11-03 | 2024-02-27 | 深圳金三立视频科技股份有限公司 | 隐患区域入侵检测方法、装置、设备和存储介质 |
CN117437249A (zh) * | 2023-12-21 | 2024-01-23 | 深圳大学 | 眼底血管图像的分割方法、终端设备及存储介质 |
CN117437249B (zh) * | 2023-12-21 | 2024-03-22 | 深圳大学 | 眼底血管图像的分割方法、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Uncertainty inspired underwater image enhancement | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
Li et al. | A closed-form solution to photorealistic image stylization | |
US20210264568A1 (en) | Super resolution using a generative adversarial network | |
Ledig et al. | Photo-realistic single image super-resolution using a generative adversarial network | |
CN114022359A (zh) | 图像超分辨率模型训练方法、装置、存储介质及设备 | |
Yang et al. | Show, attend, and translate: Unsupervised image translation with self-regularization and attention | |
Jiang et al. | Cascaded subpatch networks for effective CNNs | |
Yang et al. | TTL-IQA: Transitive transfer learning based no-reference image quality assessment | |
CN111476719A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
Fu et al. | Edge-aware deep image deblurring | |
Couturier et al. | Image denoising using a deep encoder-decoder network with skip connections | |
Zhao et al. | PCA dimensionality reduction method for image classification | |
CN109492668A (zh) | 基于多通道卷积神经网络的mri不同期多模图像表征方法 | |
CN116563285B (zh) | 一种基于全神经网络的病灶特征识别与分割方法及系统 | |
CN114266898A (zh) | 一种基于改进EfficientNet的肝癌识别方法 | |
Siavelis et al. | An improved GAN semantic image inpainting | |
Zaji et al. | AutoOLA: Automatic object level augmentation for wheat spikes counting | |
Dumka et al. | Advanced digital image processing and its applications in big data | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN117197462A (zh) | 基于多尺度特征融合和对齐的轻量地基云分割方法及系统 | |
CN116524070A (zh) | 一种基于文本的场景图片编辑方法及系统 | |
Samudrala et al. | Semantic Segmentation in Medical Image Based on Hybrid Dlinknet and Unet | |
CN115205624A (zh) | 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |