CN115984111A - 一种基于知识蒸馏压缩模型的图像超分辨率方法及装置 - Google Patents
一种基于知识蒸馏压缩模型的图像超分辨率方法及装置 Download PDFInfo
- Publication number
- CN115984111A CN115984111A CN202310018874.9A CN202310018874A CN115984111A CN 115984111 A CN115984111 A CN 115984111A CN 202310018874 A CN202310018874 A CN 202310018874A CN 115984111 A CN115984111 A CN 115984111A
- Authority
- CN
- China
- Prior art keywords
- network
- resolution
- image
- student
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000006835 compression Effects 0.000 title claims abstract description 36
- 238000007906 compression Methods 0.000 title claims abstract description 36
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 36
- 238000004821 distillation Methods 0.000 claims abstract description 48
- 239000010410 layer Substances 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 239000011229 interlayer Substances 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 2
- 230000008034 disappearance Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000013459 approach Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 241001351225 Sergey Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000013137 model compression technique Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于知识蒸馏压缩模型的图像超分辨率方法及装置,将小的学生网络模型级联到性能较高的教师网络中来更好的完成知识蒸馏,能够使得学生网络性能逐步逼近教师网络,进而完成超分辨率网络的压缩。使用本发明的蒸馏策略不但避免了在不同网络之间手动设计特征转换来对齐,还大大减小了学生网络的优化难度。为了缓解教师和学生之间的表征差距造成的低效蒸馏问题,本发明将教师层与层之间的相似性关系视为知识,使学生在自己的空间里学习教师的相似性关系,而不是直接模仿教师的复杂特征。本发明显著压缩了超分辨率网络模型的参数量和计算消耗,减小了超分辨率网络模型在资源受限的设备中的部署难度,具有很强的实际应用价值。
Description
技术领域
本发明涉及深度学习、模型压缩、图像超分辨率等领域,尤其涉及一种基于知识蒸馏压缩模型的图像超分辨率方法及装置。
背景技术
图像超分辨率[1](SR)是计算机视觉中一项基本任务,旨在从一幅低分辨率图像中恢复出数倍大小的高分辨率图像。图像超分辨率技术在工业界有着极为广阔的应用场景,涉及医学图像分析、卫星图像分析、面部识别、监控等。比如使用卫星进行地形拍摄时,由于功率和存储空间限制,成像设备往往是低分辨率的。这给地形重建带来困难,进而无法满足后续物体识别和分析的需求。在海量安防监控场景中,因设备成本和网络带宽限制,导致监控环境下获取的图像分辨率不高,给数据筛查分析带来困难。随着移动端设备的兴起,人们对于图像质量也有了更高的要求,在移动网络带宽和设备性能限制下,如何获得令人愉悦的高分辨照片一直是近年来的研究热点。然而,图像超分辨率是一个具有挑战性的、本质上不完善的问题。因为从高清图像降为低清图像时,会有细节信息的丢失。在逆向恢复时,低清图像总是存在着多个高清的映射。
传统的SR方法基于人工特征提取,虽然计算速度较快,但是恢复的图像失真严重,很难应用于实际场景。近年来,通过设计端到端的映射,卷积神经网络(CNN)在超分辨率任务中取得了巨大成功。SRCNN[2]仅使用3层卷积就获得了比传统方法更高的性能。随后的工作着重于通过使用更宽和更深的、以及设计高效的网络来提高性能。EDSR[3]去掉了批量归一化(BN)层,并堆叠了更多的卷积层以达到更好的性能,这大大影响了后来主流的SR网络设计工作。RCAN[4]首先将注意力机制引入到超分辨率任务中。他设计了一个残差组来减小模型训练的难度,使得网络达到了400多层。RDN[5]提出了一种密集连接网络,在密集连接模块中,该网络将每一层产生的特征图都送入之后的卷积层来充分融合高级和低级特征,以产生丰富的特征表征。然而,巨大的计算要求和内存占用限制了这些网络的实际工业部署。
另一方面,知识蒸馏(KD)作为一种有前途的深度模型压缩技术,可以使小的学生网络向过参数化的大的教师网络中学习,逐渐逼近教师网络的性能,从而使得小网络代替大网络完成部署。KD[6]首先在分类任务中提出,通过教授教师网络中产生的软标签,大大提高了学生网络的性能。后来,Yim等人[7]提出将教师两层之间的流视为知识,根据不同层的关系来指导知识蒸馏。TAKD[8]认为教师和学生之间的能力差异太大,会导致蒸馏的低效。最近,Jin等人[9]基于CKA[10]直接将教师和学生之间的特征图对齐来进行蒸馏。
将KD应用于SR网络可以在保证图像恢复效果的基础上,大大减少对于计算资源的依赖,进而使得超分技术广泛的应用于实际。然而,目前很少有知识蒸馏工作集中在超分辨率任务上。高级视觉任务网络的蒸馏方法虽然取得了一些进展,但是为超分辨率这类低级视觉任务设计特征对齐策略是很困难的,因为网络产生的复杂的纹理很难设计策略来对齐,而对特征图作某种形式的变换会导致信息损失,效果有限。为了提高蒸馏的效率,进一步提升压缩后模型的视觉恢复质量,使用新的压缩框架是很有必要的。本发明设计了一种适用于SR网络的压缩框架。通过该发明能在保持图像恢复效果的基础上大大减少算法对于设备资源的依赖。比如手机拍照生成的模糊图像,可以通过本方法得到高清的图像。在手机运算资源受限、用户等待时间敏感的条件下,能够快速且高质量的完成图像的超分辨率技术,进而满足用户对于高质量拍摄的需求。
[1].William T Freeman and Egon C Pasztor.Learning low-level vision.InICCV,1999.Long J,Shelhamer E,Darrell T.
[2].Chao Dong,Chen Change Loy,Kaiming He,and Xiaoou Tang.Image super-resolution using deep convolutional networks.IEEE transactionson patternanalysis and machine intelligence,38(2):295–307,2015.
[3].Bee Lim,Sanghyun Son,Heewon Kim,Seungjun Nah,and Kyoung MuLee.Enhanced deep residual networks for single image super-resolution.InProceedings of the IEEE conference on computer vision and pattern recognitionworkshops,pages 136–144,2017.
[4].Yulun Zhang,Kunpeng Li,Kai Li,Lichen Wang,Bineng Zhong,and YunFu.Image super-resolution using very deep residual channel attentionnetworks.In Proceedings of the European conference on computer vision(ECCV),pages 286–301,2018.
[5].Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,and Yun Fu.Residualdense network for image super-resolution.In Proceedings of the IEEEconference on computer vision and pattern recognition,pages 2472–2481,2018.
[6].Geoffrey Hinton,Oriol Vinyals,and Jeff Dean.Distilling theknowledge in a neural network.arXiv preprint arXiv:1503.02531Add to Citaviproject by ArXiv ID,2015.
[7].Junho Yim,Donggyu Joo,Jihoon Bae,and Junmo Kim.A gift fromknowledge distillation:Fast optimization,network minimization and transferlearning.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 4133–4141,2017.
[8].Seyed Iman Mirzadeh,Mehrdad Farajtabar,Ang Li,Nir Levine,AkihiroMatsukawa,and Hassan Ghasemzadeh.Improved knowledge distillation via teacherassistant.In Proceedings of the AAAI Conference on Artificial Intelligence,volume 34,pages 5191–5198,2020.
[9].Qing Jin,Jian Ren,Oliver J Woodford,Jiazhuo Wang,Geng Yuan,YanzhiWang,and Sergey Tulyakov.Teachers do more than teach:Compressing image-to-image models.In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition,pages 13600–13611,2021.
[10].Simon Kornblith,Mohammad Norouzi,Honglak Lee,and GeoffreyHinton.Similarity of neural network representations revisited.InInternational Conference on Machine Learning,pages 3519–3529.PMLR,2019.
发明内容
本发明目的在于在压缩超分辨率网络模型、降低其对于平台资源的需求的同时,保持其图像恢复能力。针对现有压缩技术在超分辨率领域应用时存在特征对齐困难、蒸馏低效等不足,本发明提供了一种基于知识蒸馏压缩模型的图像超分辨率方法及装置,来进一步提升蒸馏的效果。
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于知识蒸馏压缩模型的图像超分辨率方法,该方法包括以下步骤:
(1)分别获取训练好的大的教师网络和待训练的小的学生网络,其中,教师网络是公开的、预训练好的网络;学生网络是将教师网络减少深度之后的网络,将用于实际部署;将教师网络和学生网络分别按照网络深度,以块为单位均分为两个模块,得到教师模块一、教师模块二、学生模块一和学生模块二;并基于融合上一层语义特征与当前层提炼的特征软化模块依次将教师模块一、软化模块和学生模块二级联,将学生模块一、软化模块和教师模块二级联,组成两条优化路径,用于知识蒸馏;
(2)获取训练集低清图像,其中,训练集是公开的数据集,包含低清和高清两种成对的图像;将低清图像输入到两条优化路径进行特征提取;网络提取得到的是低清图像的纹理细节和高频特征以及图像的结构,然后将提取的特征图通过卷积网络生成初步图像结果,与高清图像计算损失项,以此来惩罚网络对图像恢复不正确的地方;损失项包括结构是否一致,颜色是否符合统计规律以及纹理是否自然,最后基于损失来优化两条路径的参数;
(3)将交叉蒸馏完的两个学生模块取出后相互连接,组成最终的优化路径;输入低清图像到该网络,使用完整的教师网络产生超分辨率图像用于监督,计算损失项并更新参数,训练完成后即取得最终压缩模型,将获取的低清图像输入到最终压缩模型中,得到超分辨率图像。
进一步地,通过对齐教师和学生各自的层间关系矩阵来达到知识转移的目的;对于不同层的输出特征X和Y,其具体处理流程如下:
A=CKA(X(i),X(j))
其中tr(*)代表取矩阵的迹,T代表矩阵的转置;AT和AS分别代表教师网络和学生网络的层间关系矩阵;||*||1代表取L1正则。
进一步地,交叉级联处添加软化模块,利用k个可学习参数对特征矩阵进行线性映射,完成教师和学生之间维度的匹配;使用通道分离和残差连接设计一个软化模块,软化模块通过残差来保留低频的图像轮廓外形,防止图像边缘模糊和网络的梯度消失,软化模块通过3*3卷积层来用于高频纹理的进一步提取;用于教师网络和学生网络之间平稳传输知识;所述软化模块融合了上一层语义特征与当前层提炼的特征,作为教师和学生之间的过渡。
进一步地,交叉蒸馏阶段,通过最小化重建损失、相似性损失来优化学生网络;融合蒸馏阶段,通过最小化与教师的重建损失来优化学生网络。
第二方面,本发明还提供了一种基于知识蒸馏压缩模型的图像超分辨率装置,所述装置包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行所述的基于知识蒸馏压缩模型的图像超分辨率方法。
第三方面,本发明还提供了一种计算机可读的存储介质,用于存储一个或多个计算机程序,所述一个或多个计算机程序包括程序代码,当所述计算机程序在计算机上运行时,所述程序代码用于执行所述的基于知识蒸馏压缩模型的图像超分辨率方法。
本发明的有益效果:
(1)提出了一种基于交叉蒸馏范式的超分辨率网络蒸馏新方法。其核心是直接使用了教师训练好的参数而不用再次设计特征的转换来进行蒸馏。这有助于减少特征变换时的信息损失,提高蒸馏效果。
(2)提出了一种基于层间关系的知识提取方法。使用中心核对齐的方法来保证学生网络在自己的表征空间中学习教师的层间关系矩阵,而不用直接模仿教师复杂的表征,提升了蒸馏效果。
(3)提出了一个软接口模块,基于残差连接和通道分离操作,来过滤大模型中有害的信息,以平稳的传输知识,提高蒸馏的效率。
(4)经过实验表明,提出的压缩方法可以应用到大多数基于深度神经网络的超分辨率网络中,不仅能获得显著的参数量下降,加快计算速度,易于进一步工业部署,还能够通过高效的蒸馏方法,有效保持超分辨率网络的性能,在维持视觉质量不下降的前提下更好的服务于下游任务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明的深度神经网络整体知识蒸馏框架。
图2为本发明软接口模块示意图。
图3为本发明输入的低分辨率图像示例、未蒸馏的输出图像示例、本发明输出的图像示例。
图4是本发明基于知识蒸馏的超分辨率网络压缩装置的结构图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
本发明主要应用场景为图像超分辨率网络的压缩问题。图像超分辨率即对输入图片进行多倍放大而保持其主观视觉质量不下降。在不增加硬件成本的前提下,SR技术可以大大提升恢复图像的分辨率质量,具有很高的经济效益。但是目前的超分辨率网络存在存储空间大,计算量消耗大,延迟明显的问题,在手机、边缘设备等实际应用中很难部署,限制了其进一步应用。
本发明提供的一种基于知识蒸馏压缩模型的图像超分辨率方法,以城市景观图像作为输入,具体包括以下步骤:
1、问题描述及变量定义
在城市景观图像的超分辨率中,对于输入一张小尺寸的低分辨率图片,其目的是根据输入图像输出一张多倍尺寸的超分辨率图像,并保持图像的视觉质量,比如清晰的建筑物轮廓和丰富的建筑纹理。现有标准的基于深度神经网络的方法是:对于给定输入图像I∈R3*H*W,其中H,W分别为图像高度和宽度值。将图片I输入到网络中(例如RCAN网络YulunZhang,Kunpeng Li,Kai Li,Lichen Wang,Bineng Zhong,and Yun Fu.Image super-resolution using very deep residual channel attention networks.In Proceedingsof the European conference on computer vision(ECCV),pages 286–301,2018.),经过四倍超分辨率网络输出结果Y0∈R3*4*H*4*W。
2、本发明的知识蒸馏框架
本发明设计了基于交叉蒸馏的超分辨率网络蒸馏框架,其目的是直接使用教师进行监督,避免显式的转换特征图。由于超分辨率网络通常由三个部分组成,包括一个只有一个卷积层的头部块,用于浅层特征提取;N个重复的主体块,用于生成高频细节;以及一个上采样的尾部块,用于最终图像的高质量重建。如附图1所示,本发明的交叉蒸馏框架由两个主要步骤组成。即附图1中的(a)所示的交叉蒸馏阶段。附图1中的(b)所示的融合训练阶段。
在交叉蒸馏阶段中,预训练的教师如图1中的(a),按照块被分为两个部分,即头部块和与其连接的前一半主体块组成尾部块和后一半主体块组成学生网络主体块少于教师网络,并使用同样的方法分为和将和和交叉级联获得两个新网络,组成了上下两条优化路径。其中上面的优化路径由和两个模块组成。下面的优化路径由和两个模块组成。其中教师模块的参数是固定的,以此来监督学生模块。在训练中固定教师参数来起到指导学生的作用,使得图像在处理过程中能够通过教师参数提取具体的纹理和细节特征,并用这些信息丢失较少的特征来进一步指导学生网络的参数优化。在成对的训练数据中,可以最小化如下损失函数完成:
其中,代表低分辨率图像,代表高分辨率图像,他们是成对的。N代表训练图像的数量,||*||1代表取L1正则。使用高清图像作为约束,分别优化两条路径的损失项,通过监督训练以完成第一阶段的蒸馏。这个阶段的主要目的是分解学生模块,并用教师训练好的参数来构建超分辨率网络,以达到蒸馏目的。
在融合阶段,本发明将上一阶段训练好的学生模块从级联网络中取出。并重新组合成最终的小网络。如附图1中的(b)所示,小网络在教师输出的超分辨率图像的监督下进行进一步融合,以提高小网络最终的性能。该过程在教师的监督下,可以最小化如下损失完成:
3、本发明的软化模块(SI)
本发明设计了软化模块(Softened Interface,SI),其目的是缓解师生模块之间的能力差异来提高蒸馏效率。教师和学生模块由于参数量的差异,会导致表征能力差异,教师模块的能力大大强于学生模块,而这种差异会导致蒸馏低效。为了缓解该问题,本发明设计了一种基于残差连接和通道分离的软接口,作为模块间的过渡,以过滤教师网络中有害的信息,提高整体蒸馏效率。将接口插在教师和学生网络之间,来提高知识传输的效率。
SI软化模块整体设计思路为:首先,调整教师模块输出的尺寸,使用一个线性嵌入模块E来减少教师输出特征图F的维度,得到F0使其匹配学生所需的输入。然后将特征F0送入逐层蒸馏的子模块中,逐步的提炼教师网络产生的特征图。最后将每层提炼的模块拼接并再次使用一个卷积层进行融合,输出的即为学生网络需要的特征图。这个软化接口作为教师和学生模块之间的过渡,能缓解蒸馏低效的问题,将主要的图像特征比如结构、颜色和纹理过滤给学生网络,将一些无关的图像噪声和有害信息过滤掉,从而提高超分辨率图像的视觉质量。
具体来说,如附图2所示,主要模块为图2中的(a),FRB子模块由图2中的(b)所示。将教师模块生成的特征图记为F∈RC*H*W,其中C、H、w表示张量通道大小、高度和宽度。首先使用一个线性嵌入模块E来减少F的维度,使其匹配学生所需的输入:
F0=E(F)
其中F0表示输出,E为输入通道数量C输出通道数量C/2的3*3卷积。然后,将F0送入设计的模块,并使用多个重复的子模块来逐步完善特征提取,逐步细化特征。如附图2所示,对于输入的特征F0,本发明进行了两类处理:(1)采用1x1卷积将输入通道的维度压缩到原始维度的一半,并将新的特征F1直接送入最终的融合模块。
F1=C0(F0)
其中C0表示1x1卷积层。
(2)将输入的F0送入子模块M0进行细化,进一步生成新的蒸馏特征Fdistilled_1。
Fdistilled_1=M0(F0)
子模块M的结构如图2中的(b)所示。是由一层5*5卷积层和一个非线性层ReLU组成。所以每个阶段会产生两种特征,即Fk和Fdistilled_k。新生成的特征Fdistilled_k将由下一个模块Ck和Mk进一步处理。
Fk+1=Ck(Fdistilled_k),k=1,...,n
Fdistilled_k+1=Mk(Fdistilled_k),k=1,...,n
在最后的融合层中,将所有由1×1卷积层产生的特征和最后蒸馏的特征连接起来。如下所示:
Fall=Concat(F1,...,Fk,Fdistilled_k),k=1,...,n
并将它们与输入特征F0相加,得到精炼的特征图。
最后,对特征图进行重构,具体如下。
Fall=R(Fall+F0)
其中R包括一个3×3的卷积层。
4、本发明的结构相似性损失
本发明设计了行为相似性损失函数,其目的是添加更细粒度的监督来加强蒸馏效果。本发明基于中心核对齐方法,将网络层与层之间的关系定义为知识。通过对齐相似性矩阵来达到蒸馏的目的,同时避免了直接对齐两个网络之间的特征图。由附图1中的(a)所示,在教师和学生之间,本发明添加了相似性损失来使得学生网络进一步学习教师的层间关系,以达到进一步细粒度约束,以提高模型图像的重建能力。首先产生模块的相似性矩阵,以RCAN网络为例,如附图1中的(a)中,模块由一个头部和10个主体块组成。将10个主体块产生的特征图两两比较相关性。记两个特征为X,Y代表中间层的特征输出,tr(*)代表取矩阵的迹,T代表矩阵的转置。当选择线性核时,则这两个特征X,Y相关性可由CKA公式获取:
通过CKA方法,可以得到不同层之间的相似性关系,并建立相似性关系矩阵AT1:
AT1=CKA(X(i),X(j))
最小化损失函数和保证学生网络和教师网络在行为上的一致性,以此来达到传输教师知识,并获得高质量恢复图像细节纹理的目的。通过最小化提出的相似性损失,将教师的知识转移到学生模块,即保证了教师提取图像纹理和细节的能力,将该能力转移到学生网络。使用关系型特征能使得学生模块在自己的表征空间中学习特征的相似性,而不需要直接模仿老师复杂的表征空间。因为教师网络会产生大量的图像纹理,而不易于学生直接模仿。
5、总体损失项
在交叉蒸馏阶段,由城市景观图像监督的重建损失和基于CKA的行为相似性损失两部分构成。其中,重建损失由两条路径输出的超分辨率图像和高分辨率城市图像的范数构成,即和其目的是使得整个网络的输出尽可能的与真实城市图像接近。行为形似性损失由和组成,其目的是促使学生模仿教师内在的层间相似性,以达到更细粒度的监督作用,保留景观中的纹理细节。所以交叉蒸馏阶段损失为:
在该阶段,一共训练100代。
在该阶段同样训练100代。
本发明面向超分辨率数据集恢复任务的实施例如下:
(1)准备工作
首先,需要准备实验所需数据集为DIV2K和Urban100,DIV2K数据集拥有800张高清图像和对应的低分辨率图像用于神经网络训练。低清图像由高清图像下采样而来,尺寸是原来的四分之一。Urban100是超分任务中典型的城市景观数据集,包含了100张高清的城市景观图像。其纹理复杂、涵盖城市景观范围广。将其作为测试集,进行高质量图像超分辨率,即主观视觉质量高、客观指标高等,可以检验算法的有效性。
(2)设定超参数,主要包括超参数如表1所示:
表1
超参数名称 | 初始学习率 | epoch | Batchsize |
数值 | 0.0001 | 200 | 16 |
(2)选择DIV2K数据集对网络进行训练,并在训练结束后测试网络精度。如表2所示了在超分辨率网络为EDSR(Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.Accurateimage super-resolution using very deep convolutional networks.In Proceedingsof the IEEE conference on computer vision and pattern recognition,pages 1646–1654,2016.)和RCAN时,测试数据集为Urban100的实验中,没有经过蒸馏的EDSR网络PSNR为25.631dB,SSIM为0.7707;在使用本发明提出的框架蒸馏后,PSNR为25.799dB,SSIM为0.7766。没有经过蒸馏的RCAN网络PSNR为26.340dB,SSIM为0.7933;在使用本发明提出的框架蒸馏后,PSNR为26.519dB,SSIM为0.7992。可以总结出经过本发明蒸馏,超分辨率网络在相同参数量下客观指标提升明显,有助于实现城市景观相关的下游任务的高质量应用。
表2
(3)图像分析:以附图3最左侧待超分图片为例分析结果,该图片是城市景观类型的低分辨率图像,特点是纹理结构规则,重复程度高。图像超分辨率任务的目标是获得更大尺寸的超分辨率图像,一般有2倍、3倍和4倍。相比于难以部署的教师网络,本发明对EDSR和RCAN分别进行了32倍和3倍压缩。附图3最右列为经过本发明蒸馏的RCAN模型输出的4倍超分的图像。中间列为未经本发明,直接训练的RCAN模型输出的图像。这两个模型大小相同,都可以在边缘设备部署,但是可以观察到,本发明的结果相比于直接训练的模型,恢复的城市景观纹理结构更加清晰和一致,主观视觉感受更好。本发明算法还原出令人愉悦的城市景观图像,可以在手机端快速部署;也可以帮助恢复低质量的遥感卫星图像,帮助城市景观的识别和进一步的地理信息处理。
与前述基于知识蒸馏的超分辨率网络压缩方法的实施例相对应,本发明还提供了一种基于知识蒸馏压缩模型的图像超分辨率装置的实施例。
参见图4,本发明实施例提供的一种基于知识蒸馏压缩模型的图像超分辨率装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的一种基于知识蒸馏压缩模型的图像超分辨率方法。
本发明一种基于知识蒸馏压缩模型的图像超分辨率装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种基于知识蒸馏压缩模型的图像超分辨率装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于知识蒸馏压缩模型的图像超分辨率方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.一种基于知识蒸馏压缩模型的图像超分辨率方法,其特征在于,该方法包括以下步骤:
(1)分别获取训练好的大的教师网络和待训练的小的学生网络,其中,教师网络是公开的、预训练好的网络;学生网络是将教师网络减少深度之后的网络,将用于实际部署;将教师网络和学生网络分别按照网络深度,以块为单位均分为两个模块,得到教师模块一、教师模块二、学生模块一和学生模块二;并基于融合上一层语义特征与当前层提炼的特征软化模块依次将教师模块一、软化模块和学生模块二级联,将学生模块一、软化模块和教师模块二级联,组成两条优化路径,用于知识蒸馏;
(2)获取训练集低清图像,其中,训练集是公开的数据集,包含低清和高清两种成对的图像;将低清图像输入到两条优化路径进行特征提取;网络提取得到的是低清图像的纹理细节和高频特征以及图像的结构,然后将提取的特征图通过卷积网络生成初步图像结果,与高清图像计算损失项,以此来惩罚网络对图像恢复不正确的地方;损失项包括结构是否一致,颜色是否符合统计规律以及纹理是否自然,最后基于损失来优化两条路径的参数;
(3)将交叉蒸馏完的两个学生模块取出后相互连接,组成最终的优化路径;输入低清图像到该网络,使用完整的教师网络产生超分辨率图像用于监督,计算损失项并更新参数,训练完成后即取得最终压缩模型,将获取的低清图像输入到最终压缩模型中,得到超分辨率图像。
3.根据权利要求1所述的一种基于知识蒸馏压缩模型的图像超分辨率方法,其特征在于,交叉级联处添加软化模块,利用k个可学习参数对特征矩阵进行线性映射,完成教师和学生之间维度的匹配;使用通道分离和残差连接设计一个软化模块,软化模块通过残差来保留低频的图像轮廓外形,防止图像边缘模糊和网络的梯度消失,软化模块通过3*3卷积层来用于高频纹理的进一步提取;用于教师网络和学生网络之间平稳传输知识;所述软化模块融合了上一层语义特征与当前层提炼的特征,作为教师和学生之间的过渡。
4.根据权利要求1所述的一种基于知识蒸馏压缩模型的图像超分辨率方法,其特征在于,交叉蒸馏阶段,通过最小化重建损失、相似性损失来优化学生网络;融合蒸馏阶段,通过最小化与教师的重建损失来优化学生网络。
5.一种基于知识蒸馏压缩模型的图像超分辨率装置,其特征在于,所述装置包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-4中任一项所述的基于知识蒸馏压缩模型的图像超分辨率方法。
6.一种计算机可读的存储介质,用于存储一个或多个计算机程序,所述一个或多个计算机程序包括程序代码,其特征在于,当所述计算机程序在计算机上运行时,所述程序代码用于执行上述权利要求1-4任一项所述的基于知识蒸馏压缩模型的图像超分辨率方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310018874.9A CN115984111A (zh) | 2023-01-06 | 2023-01-06 | 一种基于知识蒸馏压缩模型的图像超分辨率方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310018874.9A CN115984111A (zh) | 2023-01-06 | 2023-01-06 | 一种基于知识蒸馏压缩模型的图像超分辨率方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115984111A true CN115984111A (zh) | 2023-04-18 |
Family
ID=85962359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310018874.9A Pending CN115984111A (zh) | 2023-01-06 | 2023-01-06 | 一种基于知识蒸馏压缩模型的图像超分辨率方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115984111A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN117911246A (zh) * | 2023-10-20 | 2024-04-19 | 电子科技大学 | 一种基于结构化知识蒸馏的多模态图像超分辨率重建方法 |
CN117911246B (zh) * | 2023-10-20 | 2024-07-16 | 电子科技大学 | 一种基于结构化知识蒸馏的多模态图像超分辨率重建方法 |
-
2023
- 2023-01-06 CN CN202310018874.9A patent/CN115984111A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205290A (zh) * | 2023-05-06 | 2023-06-02 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN116205290B (zh) * | 2023-05-06 | 2023-09-15 | 之江实验室 | 一种基于中间特征知识融合的知识蒸馏方法和装置 |
CN117911246A (zh) * | 2023-10-20 | 2024-04-19 | 电子科技大学 | 一种基于结构化知识蒸馏的多模态图像超分辨率重建方法 |
CN117911246B (zh) * | 2023-10-20 | 2024-07-16 | 电子科技大学 | 一种基于结构化知识蒸馏的多模态图像超分辨率重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115222601A (zh) | 基于残差混合注意力网络的图像超分辨率重建模型及方法 | |
CN112184554B (zh) | 一种基于残差混合膨胀卷积的遥感图像融合方法 | |
Huang et al. | Deep hyperspectral image fusion network with iterative spatio-spectral regularization | |
CN111861961A (zh) | 单幅图像超分辨率的多尺度残差融合模型及其复原方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN112183637A (zh) | 一种基于神经网络的单光源场景光照重渲染方法及系统 | |
Guo et al. | Adaptive transform domain image super-resolution via orthogonally regularized deep networks | |
Li et al. | Hst: Hierarchical swin transformer for compressed image super-resolution | |
CN112862690B (zh) | 一种基于Transformers的低分辨率图像超分辨方法及系统 | |
Guan et al. | Srdgan: learning the noise prior for super resolution with dual generative adversarial networks | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
CN115984111A (zh) | 一种基于知识蒸馏压缩模型的图像超分辨率方法及装置 | |
CN114266957A (zh) | 一种基于多降质方式数据增广的高光谱图像超分辨率复原方法 | |
Kang et al. | Multilayer degradation representation-guided blind super-resolution for remote sensing images | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Fan et al. | Global sensing and measurements reuse for image compressed sensing | |
Zheng et al. | Double-branch dehazing network based on self-calibrated attentional convolution | |
Zhang et al. | Research on fish identification in tropical waters under unconstrained environment based on transfer learning | |
CN117689592A (zh) | 一种基于级联自适应网络的水下图像增强方法 | |
CN115760670B (zh) | 基于网络隐式先验的无监督高光谱融合方法及装置 | |
Dong et al. | MDCNN: multispectral pansharpening based on a multiscale dilated convolutional neural network | |
CN113935908B (zh) | 一种基于双支路通道和特征强化机制的遥感图像去云方法 | |
CN114119428B (zh) | 一种图像去模糊方法和装置 | |
US20240233077A1 (en) | Image super-resolution method based on knowledge distillation compression model and device thereof | |
Jia et al. | Learning rich information for quad bayer remosaicing and denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |