CN115936992A - 一种轻量级Transformer的垃圾图像超分辨方法及系统 - Google Patents

一种轻量级Transformer的垃圾图像超分辨方法及系统 Download PDF

Info

Publication number
CN115936992A
CN115936992A CN202211700428.8A CN202211700428A CN115936992A CN 115936992 A CN115936992 A CN 115936992A CN 202211700428 A CN202211700428 A CN 202211700428A CN 115936992 A CN115936992 A CN 115936992A
Authority
CN
China
Prior art keywords
image
information
resolution
super
lightweight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211700428.8A
Other languages
English (en)
Inventor
田春伟
王璐
张璇昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202211700428.8A priority Critical patent/CN115936992A/zh
Publication of CN115936992A publication Critical patent/CN115936992A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了一种轻量级Transformer的垃圾图像超分辨方法及系统,轻量级Transformer块实现多尺度分层网络,获取不同程度的图像细节特征,提高图像的质量。并利用残差操作集成层次特征,提高浅层特征作用,获得更多的细节信息。先验知识转化块将先验信息加到不同尺度不同层获得的结构信息中,提高图像超分辨的鲁棒性。特征融合块根据生物技术中双目互补的思想,通过残差学习操作融合并行的先验知识转化块,提取互补的特征,提高预测图像的像素。最后通过一个卷积,重构高质量图像。本发明在改进垃圾图像超分辨效果的同时,降低了计算复杂度,实现了高效的轻量级超分辨网络,适用于垃圾图像的识别、分类等应用,在多种应用领域均有显著提升。

Description

一种轻量级Transformer的垃圾图像超分辨方法及系统
技术领域
本发明属于图像处理与计算机视觉技术领域,具体涉及一种轻量级Transformer的垃圾图像超分辨方法及系统。
背景技术
图像超分辨是计算机视觉领域一个重要分支,指的是以低分辨率图像为输入,重建具有丰富图像细节和清晰纹理的高分辨率图像。图像超分辨在医疗诊断、安全监控和视频恢复等领域有着广泛的应用。例如,在医疗领域,高质量的图像可以帮助医生准确检测疾病;在监控与安全领域,可以提高图像质量,得到更多有价值的图像信息。因此,图像超分辨无论在学术研究还是工业应用中都具有重要意义。
为了解决单图像超分辨问题,研究人员根据上述模型,开发了多种基于低水平视觉任务退化模型的方法。其中不使用神经网络进行处理的超分辨方法被称为传统方法。一般来说,传统的单图像超分辨率可分为三类,即基于图像本身信息的方法、基于先验知识的方法和机器学习方法。但是传统方法在图像处理的过程中存在一些弊端,例如模型过于复杂、计算成本过高和超分辨过程需要手动设置参数等。针对上述问题,深度学习方法异军突起。2016年,研究人员提出超分辨率卷积神经网络(Super-Resolution ConvolutionalNeural Network,SRCNN),这是深度学习第一次应用到图像超分辨率重建领域。与传统方法相比,该模型不仅可以自动学习参数,而且优化算法更加简明,模型组成更加轻量化。尽管该网络模型只包含一个预处理层和三个卷积层,但在图像超分辨率方面获得了比一些流行的机器学习方法更强的学习能力,证明了卷积神经网络(Convolutional Neural Network,CNN)在处理图像超分辨任务的优越性。SRCNN的网络结构如图1所示。
SRCNN虽然成功地将深度学习技术引入到单图像超分辨率问题中,但仍然存在三方面局限性:
第一,模型依赖于小图像区域的上下文信息;
第二,模型训练收敛过慢;
第三,模型只适用于单一尺寸的输入图像。
为了解决上述问题,研究人员提出了深度超分辨率卷积神经网络(Very DeepSuper-Resolution convolutional network,VDSR),针对SRCNN的第一个问题,VDSR通过在深度网络结构中使用多次级联小滤波器,可以有效利用大图像区域的上下文信息;针对第二个问题,VDSR利用残差结构,并使用可调梯度剪裁提高学习率来加快收敛速度;针对第三个问题,模型通过设置比例因子,实现了模型参数在所有预定义的比例因子中共享,由此得到多尺度模型。VDSR的网络结构如图2所示。总体而言,VDSR将残差学习引入了图像超分辨领域,使用残差学习和极高的学习率实现了深层网络的快速优化,不仅将收敛速度最大化,而且采用梯度裁剪保证了训练的稳定性。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种轻量级Transformer的垃圾图像超分辨方法及系统,用于解决垃圾图像分辨率较低、图像质量差的技术问题,在降低模型计算复杂度、加快训练过程的同时,有效提高了图像超分辨网络的性能。
本发明采用以下技术方案:
一种轻量级Transformer的垃圾图像超分辨方法,包括以下步骤:
对低分辨率图像进行分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;
通过卷积和轻量化操作对四种不同层级的图像细节特征信息进行处理,然后将先验知识分级融合到四种不同层级的图像细节特征信息中,利用残差融合架构将特征合并输出;
对输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
具体的,获得四种不同层级的图像细节特征信息具体为:
使用分层特征提取模块输出不同程度的图像细节特征信息,使用特征融合块结合四种图像特征,并将先验信息与图像特征融合,得到四种不同层级的图像细节特征信息。
进一步的,分层特征提取模块包括四个层级,具体如下:
第一层级包括8个Transformer L1块,根据数据处理的顺序,前4块TransformerL1块执行初步提取,并通过PCA模块处理后输入第二层级;后四块Transformer L1块用于对加入残差信息后的图像特征进行再次提取,然后输出至特征融合块;
第二层级包括6个Transformer L2块,前3块Transformer L2块用于对上级特征提取后继续向下输出;后3块Transformer L2块用于对Transformer L1和Transformer L3残差合并后进一步特征处理,并输出至特征融合块;
第三层级包括4个Transformer L3块,前2块Transformer L3块用于对上级特征提取后通过PCA模块与5×5卷积输入第四层级,后2块Transformer L3块在融合残差信息处理后,输出至特征融合块;
第四层级包括两个Transformer L4块,用于对融合第一层级与第三层级残差后的特征信息进行提取,并输出至特征融合块。
更进一步的,第一层级、第二层级、第三层级和第四层级中,Transformer块的数量自底向上逐渐增加。
更进一步的,第四层级中,使用残差连接得到融合后的图像特征信息,经过层标准化后输入多头注意力机制,输出的特征图
Figure BDA0004023907350000031
为:
Figure BDA0004023907350000032
其中,X为输入的特征图,
Figure BDA0004023907350000033
分别为将原始大小的张量重塑后得到Query,Key和Value矩阵,Wp为1×1卷积,α为一个可学习的尺度参数;
输出的图像特征Fl为:
Fl∈RH/8×W/8×8C
其中,R为特征图,C为特征图通道数,H为特征图的高,W为特征图的宽。
具体的,利用残差融合架构将特征合并输出具体为:
将输入特征通过不同卷积进行初步提取,同时将特征图维度保持一致;将初步提取的特征信息输入先验知识转化块PITM用于融合先验信息,得到先验信息集合;通过1*1卷积以及softmax层对先验信息集合执行自适应权值分配,按照相应权值与图像特征进一步融合。
进一步的,先验信息ψ是由一对仿射变换参数(γ,β)通过映射函数M:ψ→(γ,β)建模得到,函数计算如下:
Figure BDA0004023907350000041
(γ,β)=M(ψ)
其中,(γ,β)分别为先验信息通过卷积运算得到,x为处理后的先验信息对,
Figure BDA0004023907350000042
表示处理后的先验信息集合,Gθ为对于(γ,β)分别使用两次不同的卷积运算操作。
进一步的,按照相应权值与图像特征进一步融合具体如下:
(F|γ,β)=w1γ⊙F+w2β
其中,F为输入的图像特征信息,⊙为哈达玛积,w1为γ权值,w2为β权值。
具体的,低分辨率图像通过对原始图像进行双三次插值下采样获得。
第二方面,本发明实施例提供了一种轻量级Transformer的垃圾图像超分辨系统,包括:
提取模块,对低分辨率图像进行分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;
合并模块,通过卷积和轻量化操作对四种不同层级的图像细节特征信息进行处理,然后将先验知识分级融合到四种不同层级的图像细节特征信息中,利用残差融合架构将特征合并输出;
重组模块,对输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
与现有技术相比,本发明至少具有以下有益效果:
一种轻量级Transformer的垃圾图像超分辨方法,在改进垃圾图像超分辨效果的同时,降低了计算复杂度,实现了高效的轻量级超分辨网络,适用于垃圾图像的识别、分类等应用,在多种应用领域均有显著提升。
进一步的,分层特征提取模块输出不同程度的图像细节特征信息,使用特征融合块结合四种图像特征,有效综合不同放大条件下的特征信息,并将先验信息与图像特征融合,利用先验信息提高图像特征对于细节信息的恢复,得到四种不同层级的图像细节特征信息。
进一步的,利用分层设计Transformer模块实现特征深度提取,同时,不同层的组合残差实现了浅层特征的高效利用,并缓解了梯度消失和梯度下降的问题。
进一步的,第一层级、第二层级、第三层级和第四层级中,自底向上Transformer块的数量逐渐增加,对于浅层特征来说,特征图尺寸更大,更多数目的Transformer块可以实现高效提取;对于深层细节特征来说,尺寸图更小,较少数目的Transformer块即可实现很好的特征提取效果。
进一步的,轻量级Transformer的垃圾图像超分辨方法,其特征在于,第四层级中,使用残差连接得到融合后的图像特征信息,经过层标准化后输入多头注意力机制,输出特征图
Figure BDA0004023907350000051
通过多头注意力机制在高度并行的处理环境中,提高图像特征提取效果与计算效率。
进一步的,将初步提取的特征信息输入先验知识转化块PITM用于融合先验信息,得到先验信息集合;通过1*1卷积以及softmax层对先验信息集合执行自适应权值分配,按照相应权值与图像特征进一步融合;利用先验知识转化块将图像特征与先验信息融合,有效提高图像特征的恢复效果,同时,残差融合架构通过结合浅层原始输入有效提高了图像超分辨质量,并缓解了梯度爆炸的问题。
进一步的,通过对先验信息仿射变换,利用平移+旋转+缩放+错切等操作得到(γ,β),再通过卷积操作与特征图结合,有效提高了先验信息的利用效率,以及与图像特征的融合结果。
进一步的,利用仿射变换后的(γ,β)与特征图执行哈达玛积与加和操作,相比传统的先验信息融合操作,可以将先验信息与特征图有效结合,对于图像特征细节纹理的恢复与提高具有显著提升。
可以理解的是,上述第二方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
综上所述,本发明在降低模型计算复杂度、加快训练过程的同时,有效提高了图像超分辨网络的性能,适用于航天探险、医疗诊断和灾难救援领域。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为SRCNN网络结构示意图;
图2为VDSR网络结构示意图;
图3为Transformer结构示意图;
图4为本发明的整体流程图;
图5为本发明的网络结构图;
图6为轻量化Transformer L1结构图;
图7为轻量化Transformer L2结构图;
图8为轻量化Transformer L3结构图;
图9为轻量级Transformer L4结构图;
图10为PITM网络结构图;
图11为模型下采样图像前后对比图,其中,(a)为原始高分辨率垃圾图像,(b)为下采样低分辨率垃圾图像;
图12为HFE输出的不同尺寸图像对比图,其中,(a)表示256×256图像大小,(b)为128×128图像大小,(c)为64×64图像大小;
图13为仅通过HFE预测的高分辨率图像;
图14为通过HFE+EFFM预测的高分辨率图像。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
请参阅图3,将Transformer引入图像处理领域,提出视觉Transformer(VisionTransformer,Vit)。实验证明Vit的图像处理效果更加理想,并且在同样的参数量下Transformer的计算效率比卷积模块更高。Vit模型首次引入图像块(patch)的概念,patch由P×P个像素组成,通过对patch执行flatten,接着利用投影层转换成固定长度的特征向量,最后和NLP中表示1个token(word)的词向量一样输入到Transformer的Encoder结构中。而Transformer和CNN捕捉卷积窗口内的局部信息不同,它利用注意力来捕获全局上下文信息之间相关性。首先对输入patch使用正则化处理,随后输入多头注意力机制进一步提取图像特征,增加了网络的稳定性与鲁棒性,接着使用残差连接合并原始输入,再次通过正则化层输入多层感知机,合并二次残差后输出图像特征。
本发明综合利用改进后的Transformer和残差连接进行图像超分辨,同时为了降低Transformer计算复杂度,本发明交替使用轴向注意力模块和多头注意力模块,可以在保证特征提取质量的前提下,降低其原本的二次计算复杂度。为了进一步获取浅层特征和图像细节信息,本发明采用4级分层特征提取结构很好地兼顾了这两点;最后为了进一步提高图像超分辨效果,在特征提取过程中融合了图像先验信息;本发明采用改进后的Transformer、残差连接和图像先验信息等来增强网络性能,有效提高了图像超分辨的效率。
本发明提供了一种轻量级Transformer的垃圾图像超分辨方法,包括轻量级Transformer块、先验知识转化块和特征融合块;轻量级Transformer块实现多尺度分层网络,获取不同程度的图像细节特征,提高图像的质量,并利用残差操作集成层次特征,提高浅层特征作用,获得更多的细节信息;先验知识转化块将先验信息加到不同尺度不同层获得的结构信息中,提高图像超分辨的鲁棒性;特征融合块根据生物技术中双目互补的思想,通过残差学习操作融合并行的先验知识转化块,提取互补的特征,提高预测图像的像素;最后通过一个卷积,重构高质量图像。具体为:
第一部分的轻量级Transformer块是在标准Transformer块的基础上进行的改进,本发明分别对轴向注意力模块、多头注意力模块和前馈网络采用不同的连接方式获得四种不同的Transformer块,在保证特征提取质量的前提下,降低其原本的二次计算复杂度。
第二部分为先验知识转化块(Prior Information Transpose Module,PITM),该模块采用动态卷积高效提取输入特征,同时对先验信息采用卷积+池化的组合,产生γ和β两种不同的先验知识,通过对两种先验信息自适应分配权重,达到图像特征和先验信息的高效融合。
第三部分为特征融合块(Efficient Feature Fusion Module,EFFM),EFFM通过3D卷积、5×5卷积、池化等操作将四级特征信息与先验知识分级加权融合,同时加入主成分分析法(Principal Component Analysis,PCA)进行数据降维、加入Dropout提高训练速度,进一步优化网络性能,最终合并特征输出EFFM。本发明在改进垃圾图像超分辨效果的同时,降低了计算复杂度,实现了高效的轻量级超分辨网络。
因此,本发明可广泛适用于垃圾图像的识别、分类等应用,通过对垃圾图像超分辨处理,在多种应用领域均有显著提升,由于图像超分辨在不断影响并促进着航天探险、医疗诊断和灾难救援等相关领域的进步,因此,本发明具有重要的研究意义和现实意义。
请参阅图4,本发明一种轻量级Transformer的垃圾图像超分辨方法,包括以下步骤:
S1、对输入图像执行双三次下采样,获得低分辨率图像;
将原始图像通过双三次插值下采样获得低分辨率图像,用于输入本发明提出的超分辨模型,进而得到预测的高分辨率图像。
本模型选取的高低分辨率图像的分辨率均为512×512,并且数据集为自行下载与采集的。
S2、将步骤S1得到的低分辨率图像输入分层特征提取模块(HierarchicalFeature Extraction,HFE),通过分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;
虽然Transformer在图像处理领域取得了优于传统卷积模块的效果,但是其模型复杂度和计算成本较高。因此本发明分别对轴向注意力模块、多头注意力模块和前馈网络采用不同的连接方式获得四种不同的Transformer块,可以在保证特征提取质量的前提下,降低其原本的二次计算复杂度,实现模型的轻量化处理。同时为了提高超分辨效果,本发明在图像特征中融合了先验信息。
本发明设计的网络由两阶段组成:分层特征提取模块HFE和特征融合块EFFM。
HFE负责输出不同程度的图像细节特征信息,EFFM负责结合四种图像特征,并将先验信息与图像特征融合,进一步预测高分辨图像。
请参阅图5,第一阶段的分层特征提取模块HFE由20个改进的轻量级Transformer块、3个PCA模块以及多个卷积组成。
HFE的第一层级包括8个Transformer L1块,并且根据数据处理的顺序,前4块执行初步提取,并通过PCA模块处理后,输入下一层级;后四块对加入残差信息后的图像特征再次提取后,输出至EFFM。
第二层级包括6个Transformer L2块,前3块对上级特征提取后继续向下输出;后三块对原本L1和L3残差合并后进一步特征处理,并输出至EFFM。
第三层级包括4个Transformer L3块,前两块对上级特征提取后通过PCA模块与5×5卷积输入第四层,后两块在融合残差信息处理后,输出至EFFM。
最后一层仅为两个Transformer L4块,该层对融合第一层与第三层残差后的特征信息进行提取,并输出至EFFM。
输入模型的退化图像I∈RH×W×3,首先通过一次卷积获得低等级图像特征:
Fo∈RH×E×C
其中,C代表通道(Channel),H代表特征的高(Height)以及W代表特征的宽(Weight)。
这些浅层特征Fo经过4级改进后的Transformer块结构,转化为深层特征:
Fd∈RH×W×2C
每一层级包含多个Transformer块。为保证特征提取效率,每一层Transformer块的数量自底向上逐渐增加。从低分辨率输入开始,分层结构逐层减少图像特征的空间大小,同时扩展通道数目,保证更多的图像细节可以被捕获,最终Transformer L4层输出的图像特征:
Fl∈RH/8×W/8×8C
并且在同一层的对应Transformer块加入残差连接,图像特征在第二次自底向上经过分层模型时,将卷积层应用于细化后的特征,生成残差图像:
R∈RH×W×3
并将退化后的图像添加其中
Figure BDA0004023907350000111
使得浅层特征信息可以被有效利用。
在改进的Transformer块中,输入图像特征为X∈Rh×w×c,Xri,rj,Xci,cj∈Rc分别为图像特征X的第i,j行和第i,j列的平均特征向量,基于行和列的轴向注意力评分计算方式如下:
Figure BDA0004023907350000112
Figure BDA0004023907350000113
其中,Wrq,Wrk,Wcq,Wck分别表示行和列中Query和Key的可训练参数,
Figure BDA0004023907350000121
表示行间的相对位置编码值,
Figure BDA0004023907350000122
表示列间的相对位置编码值,λ1,μ1,λ2,μ2分别表示行和列中控制计算大小的系数,br1,br2,bc1,bc2分别表示行和列中偏置量参数。
与标准自注意力机制二次复杂度O(n2)相比,轴向注意力的复杂度仅为O(2n3/2),很好地降低了原本Transformer块的计算成本。
随后,使用残差连接得到融合后的图像特征信息,经过层标准化后输入多头注意力机制,其计算方式如下:
Figure BDA0004023907350000123
Figure BDA0004023907350000124
其中,X和
Figure BDA0004023907350000125
分别为输入和输出的特征图,
Figure BDA0004023907350000126
分别为将原始大小的张量重塑后得到Query,Key和Value矩阵,Wp为1×1卷积,α为一个可学习的尺度参数,在应用softmax函数之前,用来控制K和Q之间的点积大小。
四种轻量化Transformer模块结构如图6至图9所示。
请参阅图6,采用并行两分支结构,其中第一分支采用行注意力与列注意力串行连接,并分别使用drop out处理,最后正则化处理+前馈机制处理后输出。
请参阅图7,首先对行注意力与列注意力并行连接,经过池化+正则化处理后输入多头注意力机制,最后经过正则化与前馈机制处理后输出,并且每一模块使用残差连接。
请参阅图8,首先将行注意力与多头注意力并行连接,随后将列注意力与多头注意力并行连接,最后经过正则化与前馈机制输出。
请参阅图9,依次连接层正则化、行注意力、层正则化、列注意力、层正则化与多头注意力机制,最后经过层正则化与前馈机制输出。
请参阅图10,将图像特征与先验信息同时输入PITM模块,将先验信息通过卷积层与仿射变换获得(γ,β),再利用softmax获得各自权重;同时将图像特征经过动态卷积处理后,依次与γ和β执行⊙与+操作,获得融合先验信息的输出。
S3、将步骤S2得到的四种图像细节特征信息输入EFFM,通过卷积和轻量化操作对图像细节特征信息进行处理,随后将先验知识分级融合到四种图像细节特征信息中,利用残差融合架构将特征合并输出;
为了进一步得到高质量的超分辨率图像,本发明设计EFFM来处理HFE输出的图像特征,具体如下:
首先将输入特征通过不同卷积初步提取,同时将特征图维度保持一致。随后将特征信息输入PITM,用于融合先验信息;先验信息ψ是由一对仿射变换参数(γ,β)通过映射函数M:ψ→(γ,β)来建模的;函数计算如下:
Figure BDA0004023907350000131
(γ,β)=M(ψ)
其中,(γ,β)分别为先验信息通过卷积运算得到,x为处理后的先验信息对,
Figure BDA0004023907350000132
表示处理后的先验信息集合,Gθ为对于(γ,β)分别使用两次不同的卷积运算操作。
在得到先验信息集合后,通过1*1卷积以及softmax层对先验信息对执行自适应权值分配,按照相应权值与图像特征进一步融合,具体如下:
(F|γ,β)=w1γ⊙F+w2β
其中,F为输入的图像特征信息,⊙为哈达玛积,w1为γ权值,w2为β权值。
S4、对步骤S3输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
本发明再一个实施例中,提供一种轻量级Transformer的垃圾图像超分辨系统,该系统能够用于实现上述轻量级Transformer的垃圾图像超分辨方法,具体的,该轻量级Transformer的垃圾图像超分辨系统包括提取模块、合并模块以及重组模块。
其中,提取模块,对低分辨率图像进行分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;
合并模块,通过卷积和轻量化操作对四种不同层级的图像细节特征信息进行处理,然后将先验知识分级融合到四种不同层级的图像细节特征信息中,利用残差融合架构将特征合并输出;
重组模块,对输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于轻量级Transformer的垃圾图像超分辨方法的操作,包括:
对低分辨率图像进行分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;通过卷积和轻量化操作对四种不同层级的图像细节特征信息进行处理,然后将先验知识分级融合到四种不同层级的图像细节特征信息中,利用残差融合架构将特征合并输出;对输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关轻量级Transformer的垃圾图像超分辨方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
对低分辨率图像进行分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;通过卷积和轻量化操作对四种不同层级的图像细节特征信息进行处理,然后将先验知识分级融合到四种不同层级的图像细节特征信息中,利用残差融合架构将特征合并输出;对输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
原始输入图像大小为512×512,为了提取更多的图像细节信息,本发明利用高效分层特征提取模块,逐层对图像H和W减半,因此后续三层图像大小依次为:256×256、128×128、64×64。
请参阅图11至图14,本发明采用形象的图像来反映其变化过程,具体如下:
将图11(a)的原始高分辨率垃圾图像作为HFE网络的输入,用于预测高分辨率图像;首先下采样得到低分辨率图像,如图11(b)所示。
请参阅图12,HFE通过四层轻量化Transformer模块对图11(b)得到的低分辨率图像处理,得到大小为256×256、128×128、64×64的图像细节特征,便于提取图像的细节信息并进一步恢复高分辨率图像。
请参阅图13,为进一步验证EFFM融合先验信息后的超分辨效果,仅对HFE输出的图像特征进行像素重建得到预测图像,预测图像相较原始低分辨率图像,图像细节信息有一定程度的恢复,但总体效果并不理想,将EFFM网络重新加入整体模型,使HFE的四层提取结果输入到EFFM当中,加权融合垃圾图像先验信息并将结果逐级合并,最终EFFM处理后的图像特征合并输入像素重组模块,上采样得到预测的高质量图像,如图14所示。
综上所述,本发明一种轻量级Transformer的垃圾图像超分辨方法及系统,通过深度神经网络来处理图像超分辨任务,并取得了显著提升。结合Transformer在图像处理领域的优越性能,进一步改进其内部结构,保证图像处理质量的同时,降低其计算复杂度,满足了众多移动端设备运行的轻量化需求。同时,四级分层特征提取结构不仅可以捕获更多图像细节信息,同时利用残差结构兼顾了浅层模型的图像特征,进一步增强了网络的性能。此外,为了提高图像超分辨质量,本发明将先验信息嵌入EFFM中,通过不同卷积层对先验信息处理,产生γ和β两种信息,综合对输入特征执行融合操作。并且,EFFM整体采用多层特征融合结构,对HFE的四项输出融合加权先验信息后,进一步结合为一项输出。本发明基于标准Transformer块改进,并于PCA和卷积组合构成HFE,同时EFFM将先验信息逐层融入到图像特征信息当中,不仅提高了垃圾图像超分辨质量,而且降低了原本基于Transformer的图像处理模型的计算复杂度,实现了超分辨模型的轻量化处理。因此,本发明具有较好的应用价值和研究意义。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等,需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种轻量级Transformer的垃圾图像超分辨方法,其特征在于,包括以下步骤:
对低分辨率图像进行分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;
通过卷积和轻量化操作对四种不同层级的图像细节特征信息进行处理,然后将先验知识分级融合到四种不同层级的图像细节特征信息中,利用残差融合架构将特征合并输出;
对输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
2.根据权利要求1所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,获得四种不同层级的图像细节特征信息具体为:
使用分层特征提取模块输出不同程度的图像细节特征信息,使用特征融合块结合四种图像特征,并将先验信息与图像特征融合,得到四种不同层级的图像细节特征信息。
3.根据权利要求2所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,分层特征提取模块包括四个层级,具体如下:
第一层级包括8个Transformer L1块,根据数据处理的顺序,前4块Transformer L1块执行初步提取,并通过PCA模块处理后输入第二层级;后四块Transformer L1块用于对加入残差信息后的图像特征进行再次提取,然后输出至特征融合块;
第二层级包括6个Transformer L2块,前3块Transformer L2块用于对上级特征提取后继续向下输出;后3块Transformer L2块用于对Transformer L1和Transformer L3残差合并后进一步特征处理,并输出至特征融合块;
第三层级包括4个Transformer L3块,前2块Transformer L3块用于对上级特征提取后通过PCA模块与5×5卷积输入第四层级,后2块Transformer L3块在融合残差信息处理后,输出至特征融合块;
第四层级包括两个Transformer L4块,用于对融合第一层级与第三层级残差后的特征信息进行提取,并输出至特征融合块。
4.根据权利要求3所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,第一层级、第二层级、第三层级和第四层级中,Transformer块的数量自底向上逐渐增加。
5.根据权利要求3所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,第四层级中,使用残差连接得到融合后的图像特征信息,经过层标准化后输入多头注意力机制,输出的特征图
Figure FDA0004023907340000021
为:
Figure FDA0004023907340000022
其中,X为输入的特征图,
Figure FDA0004023907340000023
分别为将原始大小的张量重塑后得到Query,Key和Value矩阵,Wp为1×1卷积,α为一个可学习的尺度参数;
输出的图像特征Fl为:
Fl∈RH/8×W/8×8C
其中,R为特征图,C为特征图通道数,H为特征图的高,w为特征图的宽。
6.根据权利要求1所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,利用残差融合架构将特征合并输出具体为:
将输入特征通过不同卷积进行初步提取,同时将特征图维度保持一致;将初步提取的特征信息输入先验知识转化块PITM用于融合先验信息,得到先验信息集合;通过1*1卷积以及softmax层对先验信息集合执行自适应权值分配,按照相应权值与图像特征进一步融合。
7.根据权利要求6所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,先验信息ψ是由一对仿射变换参数(γ,β)通过映射函数M:ψ→(γ,β)建模得到,函数计算如下:
Figure FDA0004023907340000024
(γ,β)=M(ψ)
其中,(γ,β)分别为先验信息通过卷积运算得到,x为处理后的先验信息对,
Figure FDA0004023907340000025
表示处理后的先验信息集合,Gθ为对于(γ,β)分别使用两次不同的卷积运算操作。
8.根据权利要求6所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,按照相应权值与图像特征进一步融合具体如下:
(F|γ,β)=w1γ⊙F+w2β
其中,F为输入的图像特征信息,⊙为哈达玛积,w1为γ权值,w2为β权值。
9.根据权利要求1所述的轻量级Transformer的垃圾图像超分辨方法,其特征在于,低分辨率图像通过对原始图像进行双三次插值下采样获得。
10.一种轻量级Transformer的垃圾图像超分辨系统,其特征在于,包括:
提取模块,对低分辨率图像进行分层提取并加入残差信息,获得四种不同层级的图像细节特征信息;
合并模块,通过卷积和轻量化操作对四种不同层级的图像细节特征信息进行处理,然后将先验知识分级融合到四种不同层级的图像细节特征信息中,利用残差融合架构将特征合并输出;
重组模块,对输出的图像细节特征信息进行像素重组,得到预测的高分辨率图像。
CN202211700428.8A 2022-12-28 2022-12-28 一种轻量级Transformer的垃圾图像超分辨方法及系统 Pending CN115936992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211700428.8A CN115936992A (zh) 2022-12-28 2022-12-28 一种轻量级Transformer的垃圾图像超分辨方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211700428.8A CN115936992A (zh) 2022-12-28 2022-12-28 一种轻量级Transformer的垃圾图像超分辨方法及系统

Publications (1)

Publication Number Publication Date
CN115936992A true CN115936992A (zh) 2023-04-07

Family

ID=86550619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211700428.8A Pending CN115936992A (zh) 2022-12-28 2022-12-28 一种轻量级Transformer的垃圾图像超分辨方法及系统

Country Status (1)

Country Link
CN (1) CN115936992A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740414A (zh) * 2023-05-15 2023-09-12 中国科学院自动化研究所 图像识别方法、装置、电子设备和存储介质
CN117272134A (zh) * 2023-09-01 2023-12-22 中国地质大学(武汉) 深度学习模型、海底地貌分类模型构建方法及分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740414A (zh) * 2023-05-15 2023-09-12 中国科学院自动化研究所 图像识别方法、装置、电子设备和存储介质
CN116740414B (zh) * 2023-05-15 2024-03-01 中国科学院自动化研究所 图像识别方法、装置、电子设备和存储介质
CN117272134A (zh) * 2023-09-01 2023-12-22 中国地质大学(武汉) 深度学习模型、海底地貌分类模型构建方法及分类方法

Similar Documents

Publication Publication Date Title
CN110310221B (zh) 一种基于生成对抗网络的多域图像风格迁移方法
CN111767979B (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN113096017B (zh) 基于深度坐标注意力网络模型的图像超分辨率重建方法
CN110163801B (zh) 一种图像超分辨和着色方法、系统及电子设备
CN115936992A (zh) 一种轻量级Transformer的垃圾图像超分辨方法及系统
CN111899168B (zh) 一种基于特征增强的遥感影像超分辨率重建方法和系统
CN111259904B (zh) 一种基于深度学习和聚类的语义图像分割方法及系统
CN113362242B (zh) 基于多特征融合网络的图像修复方法
CN113642585B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN113421187B (zh) 一种超分辨率重建方法、系统、存储介质、设备
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN117651965A (zh) 使用神经网络的高清图像操作方法和系统
CN116503552A (zh) 一种基于多尺度特征融合的由粗到精点云形状补全方法
Xian et al. Fast generation of high-fidelity RGB-D images by deep learning with adaptive convolution
CN116563100A (zh) 一种基于内核引导网络的盲超分辨率重建方法
CN116309429A (zh) 一种基于深度学习的芯片缺陷检测方法
CN112598581B (zh) 一种rdn超分辨网络的训练方法及图像生成方法
CN111681168B (zh) 一种基于并行残差网络的低分辨率细胞超分辨率重建方法
CN111724309B (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN116095183A (zh) 一种数据压缩方法以及相关设备
CN110211059A (zh) 一种基于深度学习的图像重建方法
CN116128722A (zh) 基于频域-纹理特征融合的图像超分辨率重建方法及系统
CN113191947B (zh) 一种图像超分辨率的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination