CN116542873A - 一种基于Transformer的多阶段渐进图像复原方法 - Google Patents

一种基于Transformer的多阶段渐进图像复原方法 Download PDF

Info

Publication number
CN116542873A
CN116542873A CN202310446877.2A CN202310446877A CN116542873A CN 116542873 A CN116542873 A CN 116542873A CN 202310446877 A CN202310446877 A CN 202310446877A CN 116542873 A CN116542873 A CN 116542873A
Authority
CN
China
Prior art keywords
image
stage
transform
original
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310446877.2A
Other languages
English (en)
Inventor
张剑华
王佳佳
李丹阳
周浩
郭烈峰
徐晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202310446877.2A priority Critical patent/CN116542873A/zh
Publication of CN116542873A publication Critical patent/CN116542873A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

一种基于Transformer的多阶段渐进图像复原方法,该方法的过程包括:S1:构造包含各种退化类型的原始图像训练集,其中,所述原始图像训练集包括带雨图像和模糊图像;S2:使用特征提取模块提取所述各原始图像训练集中的原始图像的数据特征;S3:为所述各种退化类型构建基于Transformer的多阶段渐进图像复原模型,并基于提取的所述原始图像的数据特征对所述多阶段渐进图像复原模型进行训练。所述基于Transformer的多阶段渐进图像复原模型包括三个阶段,为了保留从输入图像到输出图像的细节,在最后一个阶段不采用任何下采样操作,并且所述基于Transformer的多阶段渐进图像复原模型中使用的Transformer模型的复杂度随图像分辨率呈线性增长,可以直接应用在高分辨率的图像上;S4:使用训练好的多阶段渐进图像复原模型对测试集进行测试,并输出对应的复原图像。

Description

一种基于Transformer的多阶段渐进图像复原方法
技术领域
本发明涉及到计算机视觉、图像增强等技术领域,更具体地说是指一种基于Transformer的多阶段渐进图像复原方法。
背景技术
图像复原是在数学理论和计算机技术的基础上,通过计算机软件和算法复原模糊、噪声、失真等退化的研究。图像复原技术为人类的生活带来了很多的便利,一方面,它可以在较低成本的情况下恢复图像的损失并允许进一步的细化,另一方面,其非常有利于压缩图像的传输空间和时间。因此,在图像处理和底层视觉的各项任务中,图像复原占据着重要的地位。
从应用领域来讲,图像复原技术不仅仅可以服务于娱乐生活的方方面面,还在天文、刑侦、医疗等重点领域有着广泛的应用前景。图像复原任务是一个像素级的任务,现有的图像复原算法大都通过增加网络深度来提升精度,但是这一过程中不可避免的会造成空间细节信息的损失,因此需要设计一种新的算法兼顾图像的上下文信息和空间细节信息。
发明内容
本发明的目的是克服现有技术的上述不足,提供一种基于Transformer的多阶段渐进图像复原方法。为此,本发明采用如下的技术方案:
一种基于Transformer的多阶段渐进图像复原方法,所述方法包括下列步骤:
S1:构造包含各种退化类型的原始图像训练集,其中,所述原始图像训练集包括带雨图像和模糊图像;
S2:使用特征提取模块提取所述各原始图像训练集中的原始图像的数据特征;
S3:为所述各种退化类型构建基于Transformer的多阶段渐进图像复原模型,并基于提取的所述原始图像的数据特征对所述多阶段渐进图像复原模型进行训练;
S4:使用训练好的多阶段渐进图像复原模型对测试集进行测试,并输出对应的复原图像。
进一步,所述步骤S1中,在获取所述原始图像训练集过程中,首先对原始图像进行随机裁剪,再对裁剪后的图像进行随机翻转增加训练样本,以完成所述原始图像训练集的构造。
再进一步,所述步骤S3中,构建所述基于Transformer的多阶段渐进图像复原模型包括:
第一阶段,将第一质量图像X输入到所述第一阶段的网络当中,经过基于Transformer的编码器-解码器网络获取所得特征中的上下文信息,在所述第一阶段结束产生第二质量图像Y1,并使用Y1和ground-truth计算损失函数来控制所述第一阶段的执行,其中,在所述第一阶段中,通过设置监督注意模块(SAM)来生成注意力图,以抑制所述第一阶段中第一特征,从而实现仅将第二特征发送到第二阶段;
第二阶段,将所述第二质量图像Y1以及所述第一质量图像X联合以得到所述第二阶段的网络的输入,将所述第二阶段的输入输入至所述第二阶段的网络中以输出第三质量图像Y2
第三阶段,将所述第三质量图像Y2和所述第一质量图像X联合以得到所述第三阶段的网络的输入,其中,所述第三阶段的网络包括原始分辨率子网络(ORSNet),将所述第三阶段的输入输入至所述第三阶段的网络中以产生第四质量图像Y3,作为最终得到的所述复原图像。
所述步骤S3中,所述Transformer包括基于窗口的Transformer和通道级的Transformer,其中,所述Transformer包括基于窗口的Transformer和通道级的Transformer的复杂度随分辨率呈线性增长。所述Transformer中的主要计算开销来自于自注意力机制(SA),其中,基于窗口的SA和通道级SA的复杂度分别表示为O(M2HWC)和O(HWC2),其中,M表示一个窗口内的切片个数,H表示图像高度,W表示图像宽度,C表示通道数。所述基于窗口的Transformer获取局部信息,所述通道级的Transformer获取全局信息,其中,所述局部信息和所述全局信息互补,并且上一阶段的局部信息被送到下一阶段以辅助获取所述全局信息。
所述损失函数表示为:
其中,Y表示ground-truth,Yi表示第i阶段的输出图像,λ设置为0.05,Lchar表示为:
其中,常数ε设置为10-3。Ledge表示为:
其中,Δ为拉普拉斯算子。
更进一步,所述步骤S4中,对于已知退化类型的图像,将所述已知退化类型的图像输入到对应的图像复原模型中,以得到清晰的复原图像。
本发明与现有技术相比的有益效果是:本发明提供了一种基于Transformer的图像复原方法,采用多阶段渐进的框架进行图像复原,使得网络兼顾上下文信息和空间细节信息,并且在恢复图像时使用视觉Transformer模型获取远程依赖,克服了CNN局部受限的不足,最终实现对各种退化类型图像进行图像复原,不仅模型参数量低且能达到较高的精度。下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1为基于Transformer的多阶段渐进图像复原技术的流程示意图;
图2为图像复原方法T-MPIR的流程示意图;
图3为本方法提供的图像复原方法的输出示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
参照图1,一种基于Transformer的多阶段渐进图像复原方法,所述方法包括以下步骤:
S1:构造包含各种退化类型的原始图像训练集。
原始图像指经过成像、压缩、传输、记录、显示以及存储等步骤的图像,并且已知其退化类型(带雨、模糊以及噪声)。首先对原始图像进行随机裁剪,再对裁剪后的图像进行随机翻转增加训练样本,以完成所述原始图像训练集的构造。
S2:使用特征提取模块提取所述各原始图像训练集中的原始图像的数据特征。
如图2所示,将所述原始图像训练集输入到特征提取模块中,使用所述特征提取模块对所述原始图像训练集中的原始图像进行处理,所述特征提取模块由卷积层组成,具体表示为:
fi=Conv(X) (1)
其中,X表示输入的所述原始图像训练集中的原始图像,Conv表示卷积处理,fi表示第i阶段的数据特征。
通过该步骤,得到各原始图像训练集中的原始图像的数据特征。
S3:为所述各种退化类型构建基于Transformer的多阶段渐进图像复原模型,并基于提取的所述原始图像的数据特征对所述多阶段渐进图像复原模型进行训练。
如图2图像复原方法的流程示意图所示,所述方法一共分为三个阶段:
S31:将第一质量图像X输入到所述第一阶段的网络当中,经过基于Transformer的编码器-解码器网络(TB-Unet)获取所得特征的上下文信息,在所述第一阶段结束产生第二质量图像Y1,并使用Y1和ground-truth计算损失函数控制第一阶段的执行,其中,在所述第一阶段中,通过设置监督注意模块(SAM)来生成注意力图,以抑制所述第一阶段中第一特征,从而实现仅将第二特征发送到第二阶段;
其中,所述TB-Unet是将基于窗口的视觉Transformer模块和Unet相结合,该模型分为左右两个分支,左侧分支为下采样层,右侧分支为上采样层。左侧分支由四层基于窗口的Transformer模块组成,其数量分别是1,2,4,6,每一层中间由下采样操作进行连接,右侧分支即是由上采样层进行连接。将特征图输入到所述基于窗口的Transformer模块时,先是通过LayerNorm层,再经过基于窗口的自注意力机制,然后经过一个残差连接,再通过LayerNorm层和前馈网络。用公式表示为:
X′l=W-MSA(LN(Xl-1))+Xl-1 (2)
Xl=LeFF(LN(Xl′))+X′l (3)
其中,Xl和X′l分别是第l层W-MSA和LeFF的输出,W-MSA表示基于窗口的自注意力机制,LeFF表示前馈网络,LN表示LayerNorm层。
S32:第二阶段的TB-Unet网络与第一阶段的网络完全相同,将第一阶段SAM网络的其中一个输出和第二阶段的f2进行特征融合形成特征输入,融合过程可表示为:
f2′=w1*fs1+w2*f2 (4)
其中,w1和w2是由网络训练得出的权重,fs1表示第一阶段SAM网络的输出。
通过该步骤,最终输出第三质量图像Y2
S33:最后一个阶段的特征输入和第二阶段的方式相同,在这一阶段为了保留从输入图像到输出图像的细节,引入了原始分辨率网络(ORSNet)。所述ORSNet不采用任何下采样操作,以生成空间丰富的高分辨率特征,它由四层通道级Transformer组成,其中的Transformer模块个数分别为1,3,5,3。该阶段产生第四质量图像Y3,作为最终得到的所述复原图像。
在步骤S3中的基于窗口的Transformer和通道级的Transformer,其复杂度都是随分辨率呈线性增长。
其中,所述Transformer中的主要计算开销来自于自注意力机制(SA),在传统的SA中,q(查询向量)、k(表示被查询信息与其他信息的相关性的向量)点积交互的时间和内存复杂度随输入的空间分辨率呈二次增长,即对于W(宽)×H(高)像素的图像,其时间和内存复杂度为O(W2H2C),其中C表示通道数。因此,在大多数涉及高分辨率图像的图像复原任务中应用SA是不可行的。为了缓解这个问题,本方法使用基于窗口的SA和通道级SA,其复杂度分别为O(M2HWC)和O(HWC2),其中M表示一个窗口内的切片个数。
所述基于窗口的Transformer获取局部信息,所述通道级的Transformer获取全局信息,其中,所述局部信息和所述全局信息互补,并且上一阶段的局部信息被送到下一阶段以辅助获取所述全局信息。
所述损失函数表示为:
其中,Y表示ground-truth,Yi表示第i阶段的输出图像,λ设置为0.05,Lchar表示为:
其中,常数ε设置为10-3。Ledge表示为:
其中,Δ为拉普拉斯算子。
S4:对于已知退化类型的图像,将所述已知退化类型的图像输入到对应的图像复原模型中,以得到清晰的复原图像,如图3分别为去雨、去模糊的原始图像、输出图像和真值图像。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于Transformer的多阶段渐进图像复原方法,其特征在于,所述方法包括下列步骤:
S1:构造包含各种退化类型的原始图像训练集,其中,所述原始图像训练集包括带雨图像和模糊图像;
S2:使用特征提取模块提取所述各原始图像训练集中的原始图像的数据特征;
S3:为所述各种退化类型构建基于Transformer的多阶段渐进图像复原模型,并基于提取的所述原始图像的数据特征对所述多阶段渐进图像复原模型进行训练;
S4:使用训练好的多阶段渐进图像复原模型对测试集进行测试,并输出对应的复原图像。
2.根据权利要求1所述的基于Transformer的多阶段渐进图像复原方法,其特征在于,所述步骤S1中,在获取所述原始图像训练集过程中,首先对原始图像进行随机裁剪,再对裁剪后的图像进行随机翻转增加训练样本,以完成所述原始图像训练集的构造。
3.根据权利要求1所述的基于Transformer的多阶段渐进图像复原方法,其特征在于,所述步骤S3中,构建所述基于Transformer的多阶段渐进图像复原模型包括:
第一阶段,将第一质量图像X输入到所述第一阶段的网络当中,经过基于Transformer的编码器-解码器网络获取所得特征中的上下文信息,在所述第一阶段结束产生第二质量图像Y1,并使用Y1和ground-truth计算损失函数来控制所述第一阶段的执行,其中,在所述第一阶段中,通过设置监督注意模块(SAM)来生成注意力图,以抑制所述第一阶段中的第一特征,从而实现仅将第二特征发送到第二阶段;
第二阶段,将所述第二质量图像Y1以及所述第一质量图像X联合以得到所述第二阶段的网络的输入,将所述第二阶段的输入输入至所述第二阶段的网络中以输出第三质量图像Y2
第三阶段,将所述第三质量图像Y2和所述第一质量图像X联合以得到所述第三阶段的网络的输入,其中,所述第三阶段的网络包括原始分辨率子网络(ORSNet),将所述第三阶段的输入输入至所述第三阶段的网络中以产生第四质量图像Y3,作为最终得到的所述复原图像。
4.根据权利要求1所述的基于Transformer的多阶段渐进图像复原方法,其特征在于,所述步骤S3中,所述Transformer包括基于窗口的Transformer和通道级的Transformer,其中,所述Transformer包括基于窗口的Transformer和通道级的Transformer的复杂度随分辨率呈线性增长。
5.根据权利要求4所述的基于Transformer的多阶段渐进图像复原方法,其特征在于,所述Transformer中的主要计算开销来自于自注意力机制(SA),其中,基于窗口的SA和通道级SA的复杂度分别表示为O(M2HWC)和O(HWC2),其中,M表示一个窗口内的切片个数,H表示图像高度,W表示图像宽度,C表示通道数。
6.根据权利要求4所述的基于Transformer的多阶段渐进图像复原方法,其特征在于,所述基于窗口的Transformer获取局部信息,所述通道级的Transformer获取全局信息,其中,所述局部信息和所述全局信息互补,并且上一阶段的局部信息被送到下一阶段以辅助获取所述全局信息。
7.根据权利要求3所述的基于Transformer的多阶段渐进图像复原方法,其特征在于,所述损失函数表示为:
其中,Y表示ground-truth,Yi表示第i阶段的输出图像,λ设置为0.05,Lchar表示为:
其中,常数ε设置为10-3。Ledge表示为:
其中,Δ为拉普拉斯算子。
8.根据权利要求1所述的基于Transformer的多阶段渐进图像复原方法,其特征在于,所述步骤S4中,对于已知退化类型的图像,将所述已知退化类型的图像输入到对应的图像复原模型中,以得到清晰的复原图像。
CN202310446877.2A 2023-04-24 2023-04-24 一种基于Transformer的多阶段渐进图像复原方法 Pending CN116542873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310446877.2A CN116542873A (zh) 2023-04-24 2023-04-24 一种基于Transformer的多阶段渐进图像复原方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310446877.2A CN116542873A (zh) 2023-04-24 2023-04-24 一种基于Transformer的多阶段渐进图像复原方法

Publications (1)

Publication Number Publication Date
CN116542873A true CN116542873A (zh) 2023-08-04

Family

ID=87446224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310446877.2A Pending CN116542873A (zh) 2023-04-24 2023-04-24 一种基于Transformer的多阶段渐进图像复原方法

Country Status (1)

Country Link
CN (1) CN116542873A (zh)

Similar Documents

Publication Publication Date Title
CN111105352B (zh) 超分辨率图像重构方法、系统、计算机设备及存储介质
CN107403415B (zh) 基于全卷积神经网络的压缩深度图质量增强方法及装置
CN111311490A (zh) 基于多帧融合光流的视频超分辨率重建方法
CN110889895B (zh) 一种融合单帧重建网络的人脸视频超分辨率重建方法
CN107610069B (zh) 基于共享k-svd字典的dvs可视化视频去噪方法
CN109949223B (zh) 基于反卷积稠密连接的图像超分辨率重构方法
CN112270644A (zh) 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
CN110189260B (zh) 一种基于多尺度并行门控神经网络的图像降噪方法
CN111932461A (zh) 一种基于卷积神经网络的自学习图像超分辨率重建方法及系统
CN114418853B (zh) 基于相似图像检索的图像超分辨率优化方法、介质及设备
CN106981046B (zh) 基于多层梯度约束回归的单幅图像超分辨率重建方法
CN110047038B (zh) 一种基于层级递进网络的单图像超分辨重建方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN109102463B (zh) 一种超分辨率图像重建方法及装置
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
CN113724134A (zh) 一种基于残差蒸馏网络的航拍图像盲超分辨率重建方法
CN113240581A (zh) 一种针对未知模糊核的真实世界图像超分辨率方法
CN113674154B (zh) 一种基于生成对抗网络的单幅图像超分辨率重建方法及系统
CN116542873A (zh) 一种基于Transformer的多阶段渐进图像复原方法
CN113658046B (zh) 基于特征分离的超分辨率图像生成方法、装置、设备和介质
Peng Super-resolution reconstruction using multiconnection deep residual network combined an improved loss function for single-frame image
CN116128722A (zh) 基于频域-纹理特征融合的图像超分辨率重建方法及系统
CN115564664A (zh) 基于融合双边重组注意力的二阶段Transformer编解码器的去运动模糊方法
CN113902647A (zh) 一种基于双闭环网络的图像去模糊方法
CN113066033A (zh) 一种彩色图像的多阶段去噪系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination