CN116188274A - 一种图像超分辨率重建方法 - Google Patents

一种图像超分辨率重建方法 Download PDF

Info

Publication number
CN116188274A
CN116188274A CN202310289789.6A CN202310289789A CN116188274A CN 116188274 A CN116188274 A CN 116188274A CN 202310289789 A CN202310289789 A CN 202310289789A CN 116188274 A CN116188274 A CN 116188274A
Authority
CN
China
Prior art keywords
representing
convolution
attention
module
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310289789.6A
Other languages
English (en)
Inventor
蔡念
张旭
张欢
陈健
何兆泉
张国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202310289789.6A priority Critical patent/CN116188274A/zh
Publication of CN116188274A publication Critical patent/CN116188274A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种图像超分辨率重建方法,包括以下步骤:S1:提取要重建的低分辨率图片的浅层特征;S2:将提取到的浅层特征输入混合编解码器转化为深层特征;所述混合编解码器为U型网络结构,包括多个MSACM模块,每个MSACM模块包括若干个混合注意力模块;所述混合注意力模块通过包括多头自注意力分支和空间傅里叶频率模块分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息,空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性;S3:利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。本发明提供一种图像超分辨率重建方法,解决了现有的SR重建技术在提高重建性能的同时需要占用更大计算资源的问题。

Description

一种图像超分辨率重建方法
技术领域
本发明涉及图像超分辨率重建技术领域,更具体的,涉及一种图像超分辨率重建方法。
背景技术
图像超分辨率(Super Resolution,SR)重建的目标是将退化的低分辨率(LowResolution,LR)图像重建获得相对应的高分辨率(High Resolution,HR)图像。该技术作为计算机视觉领域的一项基础性的底层任务,一直是研究的重点和热点。
通常,图像的分辨率越高,所包含的纹理细节越丰富,视觉效果越清晰,更加适用于图像的后续处理任务。目前,很多设备能够胜任现实场景中对于清晰度的要求,但由于设备成本以及拍摄环境的限制很多场合所获得的图像难以达到高分辨率的要求。SR重建技术在软件层面上解决了上述难题,一方面它能有效地降低硬件的成本,使设备的扩展维护更加灵活;另一方面,软件设计不会受到平台的限制,适用范围更广。因此,SR重建技术在实际应用中拥有巨大的前景,例如,公共安全、医学诊断、遥感观测、视频/图像质量增强等。
近年来,随着深度卷积神经网络(Convolutional Neural Networks,CNNs)研究的爆发式进展,基于深度学习的方法因其出色的学习能力及实时处理的能力而受到广泛的关注。虽然基于CNN的网络在SR任务上取得了巨大成功,但受限其感受野,CNN的特征表示能力仍然有限。尽管增加网络的深度能提高图像SR重建的性能,但与此同时也增加了网络结构的复杂性,而过多的参数需要占用更大的计算资源,这就导致这些方法很难在实际应用领域中得到推广。此外,网络结构的增大也会造成模型的过拟合等问题。
发明内容
本发明为解决现有的SR重建技术在提高重建性能的同时需要占用更大计算资源的问题,提供一种图像超分辨率重建方法。
为解决上述技术问题,本发明的技术方案如下:
一种图像超分辨率重建方法,包括以下步骤:
S1:提取要重建的低分辨率图片的浅层特征;
S2:将提取到的浅层特征输入混合编解码器转化为深层特征;
所述混合编解码器为U型网络结构,包括多个MSACM模块,每个MSACM模块包括若干个混合注意力模块;所述混合注意力模块通过包括多头自注意力分支和空间傅里叶频率模块分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息,空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性;
S3:利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。
上述方案中,在U型混合编解码器中使用混合注意力模块(HAB)作为主干,利用混合注意力模块(HAB)中并行的多头自注意力分支和空间傅里叶频率模块分支高效提取层级的全局和局部上下文信息的能力,实现对低分辨率图片的高效重建;还采用CARAFE上采样算子根据上下文信息自适应地进行引导上采样,避免增加采样过程中的算力消耗。
优选的,将低分辨率图像通过3×3卷积和ReLU非线性激活函数提取浅层特征Fe,表达式为:
Figure BDA0004141029070000021
其中,σ(·)表示ReLU非线性激活函数;
Figure BDA0004141029070000022
表示3×3卷积;Il表示低分辨率图像。
优选的,所述混合编解码器包括编码器端和解码器端,其中,
在所述编码器端,相邻MSACM模块间通过步幅为2的4×4卷积进行特征下采样;在所述解码器端,相邻MSACM模块间通过3×3的卷积和Pixelshuffle操作进行特征上采样;编码器端的MSACM模块输出的特征通过跳跃连接将特征传输到解码器端的MSACM模块。
优选的,所述多头自注意力分支先通过三分支编码局部信息,分别生成query张量特征、key张量特征和value张量特征,然后通过维度转换操作转换张量特征的维度,query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵,value张量特征再与注意力特征矩阵相乘并经过维度转换和卷积得到多头自注意力分支的输出特征;
多头自注意力分支的过程如下式所示:
Figure BDA0004141029070000031
其中,
Figure BDA0004141029070000032
表示维度重塑;/>
Figure BDA0004141029070000033
表示3×3深度可分离卷积操作;LN(·)表示层归一化操作;/>
Figure BDA0004141029070000034
表示矩阵乘法操作;FmDTA表示多头自注意力分支的输出特征;Softmax(·)表示Softmax函数;Attention(·)表示自注意力操作;/>
Figure BDA0004141029070000035
表示query张量特征;/>
Figure BDA0004141029070000036
表示key张量特征;/>
Figure BDA0004141029070000037
表示value张量特征。
优选的,所述空间傅里叶频率模块分支包括空间域分支和频域分支,其中,
在空间域分支,流入空间域分支的特征经过第一次卷积、PReLU激活函数、第二次卷积后与原始流入空间域分支的特征进行通道级相加操作,得到空间域分支的输出特征;
在频域分支,流入频域分支的特征经过第一次卷积加PReLU激活函数、二维快速傅里叶变换、第二次卷积和PReLU激活函数、反二维快速傅里叶变换后与原始流入频域分支的特征进行通道级相加操作,再通过卷积整合,得到频域分支的输出特征;
最后,空间域分支的输出特征和频域分支的输出特征通过concat操作拼接,再经过卷积得到空间傅里叶频率模块分支的输出特征。
优选的,多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征通过自适应融合模块进行特征融合,自适应融合模块生成两个可学习的权重张量并分别与多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征进行通道级相乘,再通过1×1卷积来整合融合后的特征;
在混合注意力模块的前向反馈模块部分,采用深度门控前向网络进一步学习和传输特征得到混合注意力模块的输出特征FHAB
所述深度门控前向网络包括层归一化、卷积、ReLU激活函数、元素级乘法和通道相加操作;流入深度门控前向网络的特征首先经过层归一化,然后流入并行的两分支进行卷积和深度卷积,并且特征通道数量翻倍;其中一个分支的特征先经过ReLU激活函数,然后和另一分支的特征进行元素级乘法来抑制不相关的信息,然后经过1×1卷积再和原始流入深度门控前向网络的特征进行通道级相加操作,整个过程如下式所示:
Figure BDA0004141029070000041
其中,
Figure BDA0004141029070000042
表示层归一化;/>
Figure BDA0004141029070000043
表示通道级相加操作;fSFB表示空间傅里叶频率模块分支的操作;fMDTA表示多头自注意力分支的操作;fAFM表示自适应融合模块的操作;fGDFN表示深度门控前向网络的操作;/>
Figure BDA0004141029070000044
表示1×1卷积;Fs表示自适应融合模块输出的特征经过1×1卷积后与Fe进行通道级相加得到的特征。
优选的,通过以下过程得到MSACM模块的输出特征FMSACM
Figure BDA0004141029070000045
其中,
Figure BDA0004141029070000046
表示第一个混合注意力模块的操作运算,/>
Figure BDA0004141029070000047
表示第二个混合注意力模块的操作运算,/>
Figure BDA0004141029070000048
表示第n个混合注意力模块的操作运算。
优选的,步骤S3的具体过程为:
所述混合编解码器的最后一个MSACM模块输出深层特征Fd,Fd通过CARAFE上采样算子和3x3卷积得到上采样后的特征Ft,Ft与经过上采样后的低分辨率图片维度相加得到高分辨率图片Ih,表达式如下:
Figure BDA0004141029070000049
其中,
Figure BDA00041410290700000410
表示3×3卷积操作;CARAFE表示CARAFE上采样算子;/>
Figure BDA00041410290700000411
表示维度相加操作。
优选的,还包括引入考虑人类视觉感知和图像质量评价指标度量值的总损失函数:
Ltotal=PSNR(Ih,Ig)+λLCharbonnier(Ih,Ig)
损失函数LCharbonnier如下式所示:
Figure BDA00041410290700000412
其中,PSNR(·)表示PSNR损失函数;Ih,Ig分别表示超分辨率重建后的图像和原始高超分辨率的图像;λ、∈表示不同的常数。
优选的,λ为0.05,∈为0.001。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种图像超分辨率重建方法,在U型混合编解码器中使用混合注意力模块作为主干,利用混合注意力模块中并行的多头自注意力分支和空间傅里叶频率模块分支高效提取层级的全局和局部上下文信息的能力,实现对低分辨率图片的高效重建;还采用CARAFE上采样算子根据上下文信息自适应地进行引导上采样,避免增加采样过程中的算力消耗。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明的整体框架示意图;
图3为本发明中MSACM模块的框架示意图;
图4为本发明中混合注意力模块的框架示意图;
图5为本发明中MDTA分支的框架示意图;
图6为本发明中SFB分支的框架示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1-4所示,一种图像超分辨率重建方法,包括以下步骤:
S1:提取要重建的低分辨率图片的浅层特征;
S2:将提取到的浅层特征输入混合编解码器转化为深层特征;
所述混合编解码器为U型网络结构,包括多个MSACM模块,每个MSACM模块包括若干个混合注意力模块(HAB);所述混合注意力模块(HAB)通过包括多头自注意力(MDTA)分支和空间傅里叶频率模块(SFB)分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息,空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性;
S3:利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。
在具体实施过程中,在U型混合编解码器中使用HAB作为主干,利用HAB中并行的MDTA分支和SFB分支高效提取层级的全局和局部上下文信息的能力,实现对低分辨率图片的高效重建;还采用CARAFE上采样算子根据上下文信息自适应地进行引导上采样,避免增加采样过程中的算力消耗。
实施例2
一种图像超分辨率重建方法,包括以下步骤:
S1:提取要重建的低分辨率图片的浅层特征;
更具体的,将低分辨率图像通过3×3卷积和ReLU非线性激活函数提取浅层特征Fe,表达式为:
Figure BDA0004141029070000061
/>
其中,σ(·)表示ReLU非线性激活函数;
Figure BDA0004141029070000062
表示3×3卷积;Il表示低分辨率图像。
S2:将提取到的浅层特征输入混合编解码器转化为深层特征;
所述混合编解码器为U型网络结构,包括多个MSACM模块,每个MSACM模块包括若干个混合注意力模块(HAB);所述混合注意力模块(HAB)通过包括多头自注意力(MDTA)分支和空间傅里叶频率模块(SFB)分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息,空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性;
更具体的,所述混合编解码器包括编码器端和解码器端,其中,
在所述编码器端,相邻MSACM模块间通过步幅为2的4×4卷积进行特征下采样;在所述解码器端,相邻MSACM模块间通过3×3的卷积和Pixelshuffle操作进行特征上采样;编码器端的MSACM模块输出的特征通过跳跃连接将特征传输到解码器端的MSACM模块;
浅层特征转化为深层特征的过程如下式:
Fd=Fu(Fe)
Fu(·)表示混合编解码器的处理过程。
更具体的,如图5所示,所述多头自注意力(MDTA)分支先通过三分支进行1×1卷积和3×3深度可分离卷积的操作来编码局部信息,分别生成query张量特征、key张量特征和value张量特征,然后通过维度转换操作转换张量特征的维度,query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵,value张量特征再与注意力特征矩阵相乘并经过维度转换和1×1卷积得到多头自注意力(MDTA)分支的输出特征;
给定
Figure BDA0004141029070000071
首先通过层归一化操作,然后在多头自注意力分支的MDTA模块中使用1×1卷积和3×3深度卷积来编码通道级的空间上下文;接下来,对查询和关键投影进行点积乘法重构,生成一个转置的注意力图/>
Figure BDA0004141029070000072
多头自注意力(MDTA)分支的过程如下式所示:
Figure BDA0004141029070000073
其中,
Figure BDA0004141029070000074
表示维度重塑;/>
Figure BDA0004141029070000075
表示3×3深度可分离卷积操作;LN(·)表示层归一化操作;/>
Figure BDA0004141029070000076
表示矩阵乘法操作;FMDTA表示多头自注意力(MDTA)分支的输出特征;Softmax(·)表示Softmax函数;Attention(·)表示自注意力操作;/>
Figure BDA0004141029070000077
表示query张量特征;/>
Figure BDA0004141029070000078
表示key张量特征;/>
Figure BDA0004141029070000079
表示value张量特征;/>
Figure BDA00041410290700000710
Figure BDA00041410290700000711
在具体实施过程中,MDTA分支跨通道建模全局上下文,其复杂度与输入图像呈线性复杂度。
更具体的,如图6所示,所述空间傅里叶频率模块(SFB)分支基于快速傅里叶卷积(FFC),包括空间域分支和频域分支,其中,
在空间域分支,流入空间域分支的特征经过第一次3×3卷积、PReLU激活函数、第二次3×3卷积后与原始流入空间域分支的特征进行通道级相加操作,得到空间域分支的输出特征;
在频域分支,流入频域分支的特征经过第一次3×3卷积加PReLU激活函数、二维快速傅里叶变换、第二次3×3卷积和PReLU激活函数、反二维快速傅里叶变换后与原始流入频域分支的特征进行通道级相加操作,再通过1×1卷积整合,得到频域分支的输出特征;
最后,空间域分支的输出特征和频域分支的输出特征通过concat操作拼接,再经过1×1卷积得到空间傅里叶频率模块(SFB)分支的输出特征。
S3:利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。
更具体的,步骤S3的具体过程为:
所述混合编解码器的最后一个MSACM模块输出深层特征Fd,Fd通过CARAFE上采样算子和3x3卷积得到上采样后的特征Ft,Ft与经过上采样后的低分辨率图片维度相加得到高分辨率图片Ih,表达式如下:
Figure BDA0004141029070000081
其中,
Figure BDA0004141029070000082
表示3×3卷积操作;CARAFE表示CARAFE上采样算子;/>
Figure BDA0004141029070000083
表示维度相加操作。
实施例3
一种图像超分辨率重建方法,包括以下步骤:
S1:提取要重建的低分辨率图片的浅层特征;
更具体的,将低分辨率图像通过3×3卷积和ReLU非线性激活函数提取浅层特征Fe,表达式为:
Figure BDA0004141029070000084
其中,σ(·)表示ReLU非线性激活函数;
Figure BDA0004141029070000085
表示3×3卷积;Il表示低分辨率图像。
S2:将提取到的浅层特征输入混合编解码器转化为深层特征;
所述混合编解码器为U型网络结构,包括多个MSACM模块,每个MSACM模块包括若干个混合注意力模块(HAB);所述混合注意力模块(HAB)通过包括多头自注意力(MDTA)分支和空间傅里叶频率模块(SFB)分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息,空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性;
更具体的,所述混合编解码器包括编码器端和解码器端,其中,
在所述编码器端,相邻MSACM模块间通过步幅为2的4×4卷积进行特征下采样;在所述解码器端,相邻MSACM模块间通过3×3的卷积和Pixelshuffle操作进行特征上采样;编码器端的MSACM模块输出的特征通过跳跃连接将特征传输到解码器端的MSACM模块;
浅层特征转化为深层特征的过程如下式:
Fd=Fu(Fe)
Fu(·)表示混合编解码器的处理过程。
更具体的,多头自注意力(MDTA)分支跨通道建模全局上下文,其复杂度与输入图像呈线性复杂度。所述多头自注意力(MDTA)分支先通过三分支进行1×1卷积和3×3深度可分离卷积的操作来编码局部信息,分别生成query张量特征、key张量特征和value张量特征,然后通过维度转换操作转换张量特征的维度,query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵,value张量特征再与注意力特征矩阵相乘并经过维度转换和1×1卷积得到多头自注意力(MDTA)分支的输出特征;
给定
Figure BDA0004141029070000091
首先通过层归一化操作,然后在多头自注意力分支的MDTA模块中使用1×1卷积和3×3深度卷积来编码通道级的空间上下文;接下来,对查询和关键投影进行点积乘法重构,生成一个转置的注意力图/>
Figure BDA0004141029070000092
多头自注意力(MDTA)分支的过程如下式所示:
Figure BDA0004141029070000093
其中,
Figure BDA0004141029070000094
表示维度重塑;/>
Figure BDA0004141029070000095
表示3×3深度可分离卷积操作;LN(·)表示层归一化操作;/>
Figure BDA00041410290700000911
表示矩阵乘法操作;FMDTA表示多头自注意力(MDTA)分支的输出特征;Softmax(·)表示Softmax函数;Attention(·)表示自注意力操作;/>
Figure BDA0004141029070000096
表示query张量特征;/>
Figure BDA0004141029070000097
表示key张量特征;/>
Figure BDA0004141029070000098
表示value张量特征;/>
Figure BDA0004141029070000099
Figure BDA00041410290700000910
更具体的,所述空间傅里叶频率模块(SFB)分支基于快速傅里叶卷积(FFC),包括空间域分支和频域分支,其中,
在空间域分支,流入空间域分支的特征经过第一次3×3卷积、PReLU激活函数、第二次3×3卷积后与原始流入空间域分支的特征进行通道级相加操作,得到空间域分支的输出特征;
在频域分支,流入频域分支的特征经过第一次3×3卷积加PReLU激活函数、二维快速傅里叶变换、第二次3×3卷积和PReLU激活函数、反二维快速傅里叶变换后与原始流入频域分支的特征进行通道级相加操作,再通过1×1卷积整合,得到频域分支的输出特征;
最后,空间域分支的输出特征和频域分支的输出特征通过concat操作拼接,再经过1×1卷积得到空间傅里叶频率模块(SFB)分支的输出特征。
在具体实施过程中,空间傅里叶频率模块(SFB)分支利用快速傅里叶卷积来提取频域分支中的全局信息,然后利用空间域分支中基于沙漏的残差模块来增强局部特征表征,并帮助网络提取到图像中有用的信息和学习到更有鉴别性的特征表示。
更具体的,浅层特征Fe首先通过层归一化,然后通过MDTA分支和SFB分支组成的并行双分支结构,多头自注意力(MDTA)分支的输出特征和空间傅里叶频率模块(SFB)分支的输出特征通过自适应融合模块(AFM)进行特征融合,自适应融合模块(AFM)生成两个可学习的权重张量并分别与多头自注意力(MDTA)分支的输出特征和空间傅里叶频率模块(SFB)分支的输出特征进行通道级相乘,再通过1×1卷积来整合融合后的特征;
在混合注意力模块(HAB)的前向反馈模块部分,采用深度门控前向网络(GDFN)进一步学习和传输特征得到混合注意力模块(HAB)的输出特征FHAB
所述深度门控前向网络(GDFN)包括层归一化、1×1卷积、ReLU激活函数、元素级乘法和通道相加操作;流入GDFN的特征首先经过层归一化,然后流入并行的两分支进行1×1卷积和3×3深度卷积,并且特征通道数量翻倍;其中一个分支的特征先经过ReLU激活函数,然后和另一分支的特征进行元素级乘法来抑制不相关的信息,然后经过1×1卷积再和原始流入深度门控前向网络(GDFN)的特征进行通道级相加操作,整个过程如下式所示:
Figure BDA0004141029070000101
其中,
Figure BDA0004141029070000102
表示层归一化;/>
Figure BDA0004141029070000103
表示通道级相加操作;fSFB表示空间傅里叶频率模块(SFB)分支的操作;fMDTA表示多头自注意力(MDTA)分支的操作;fAFM表示自适应融合模块(AFM)的操作;fGDFN表示深度门控前向网络(GDFN)的操作;/>
Figure BDA0004141029070000104
表示1×1卷积;Fs表示自适应融合模块(AFM)输出的特征经过1×1卷积后与Fe进行通道级相加得到的特征。
更具体的,通过以下过程得到MSACM模块的输出特征FMSACM
Figure BDA0004141029070000105
其中,
Figure BDA0004141029070000106
表示第一个混合注意力模块(HAB)的操作运算,/>
Figure BDA0004141029070000107
表示第二个混合注意力模块(HAB)的操作运算,/>
Figure BDA0004141029070000108
表示第n个混合注意力模块(HAB)的操作运算。
S3:利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。
更具体的,步骤S3的具体过程为:
所述混合编解码器的最后一个MSACM模块输出深层特征Fd,Fd通过CARAFE上采样算子和3x3卷积得到上采样后的特征Ft,Ft与经过上采样后的低分辨率图片维度相加得到高分辨率图片Ih,表达式如下:
Figure BDA0004141029070000111
其中,
Figure BDA0004141029070000112
表示3×3卷积操作;CARAFE表示CARAFE上采样算子;/>
Figure BDA0004141029070000113
表示维度相加操作。
在具体实施过程中,采用CARAFE上采样算子替代传统超分网络的上采样操作,该算子能根据上下文信息自适应地进行引导上采样,采样过程中的算力消耗与反卷积操作相当。
更具体的,还包括引入考虑人类视觉感知和图像质量评价指标度量值的总损失函数:
Ltotal=PSNR(Ih,Ig)+λLCharbonnier(Ih,Ig)
损失函数LCharbonnier如下式所示:
Figure BDA0004141029070000114
其中,PSNR(·)表示PSNR损失函数;Ih,Ig分别表示超分辨率重建后的图像和原始高超分辨率的图像;λ、∈表示不同的常数。
更具体的,λ为0.05,∈为0.001。
在具体实施过程中,常数λ和∈可根据经验设置。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种图像超分辨率重建方法,其特征在于,包括以下步骤:
S1:提取要重建的低分辨率图片的浅层特征;
S2:将提取到的浅层特征输入混合编解码器转化为深层特征;
所述混合编解码器为U型网络结构,包括多个MSACM模块,每个MSACM模块包括若干个混合注意力模块;所述混合注意力模块通过包括多头自注意力分支和空间傅里叶频率模块分支的并行双分支结构来同时建模全局上下文信息和局部纹理信息,空间傅里叶频率模块通过快速傅里叶变换和反傅里叶变换引入频域特性;
S3:利用CARAFE上采样算子根据深层特征重构得到高分辨率图片。
2.根据权利要求1所述的一种图像超分辨率重建方法,其特征在于,将低分辨率图像通过3×3卷积和ReLU非线性激活函数提取浅层特征Fe,表达式为:
Figure FDA0004141029050000011
其中,σ(·)表示ReLU非线性激活函数;
Figure FDA0004141029050000012
表示3×3卷积;Il表示低分辨率图像。
3.根据权利要求1所述的一种图像超分辨率重建方法,其特征在于,所述混合编解码器包括编码器端和解码器端,其中,
在所述编码器端,相邻MSACM模块间通过步幅为2的4×4卷积进行特征下采样;在所述解码器端,相邻MSACM模块间通过3×3的卷积和Pixelshuffle操作进行特征上采样;编码器端的MSACM模块输出的特征通过跳跃连接将特征传输到解码器端的MSACM模块。
4.根据权利要求1所述的一种图像超分辨率重建方法,其特征在于,所述多头自注意力分支先通过三分支编码局部信息,分别生成query张量特征、key张量特征和value张量特征,然后通过维度转换操作转换张量特征的维度,query张量特征和key张量特征通过矩阵乘法和Softmax函数生成转置后的注意力特征矩阵,value张量特征再与注意力特征矩阵相乘并经过维度转换和卷积得到多头自注意力分支的输出特征;
多头自注意力分支的过程如下式所示:
Figure FDA0004141029050000021
其中,
Figure FDA0004141029050000022
表示维度重塑;/>
Figure FDA0004141029050000023
表示3×3深度可分离卷积操作;LN(·)表示层归一化操作;/>
Figure FDA0004141029050000024
表示矩阵乘法操作;FmDTA表示多头自注意力分支的输出特征;Softmax(·)表示Softmax函数;Attention(·)表示自注意力操作;/>
Figure FDA0004141029050000025
表示query张量特征;/>
Figure FDA0004141029050000026
表示key张量特征;/>
Figure FDA0004141029050000027
表示value张量特征。
5.根据权利要求1所述的一种图像超分辨率重建方法,其特征在于,所述空间傅里叶频率模块分支包括空间域分支和频域分支,其中,
在空间域分支,流入空间域分支的特征经过第一次卷积、PReLU激活函数、第二次卷积后与原始流入空间域分支的特征进行通道级相加操作,得到空间域分支的输出特征;
在频域分支,流入频域分支的特征经过第一次卷积加PReLU激活函数、二维快速傅里叶变换、第二次卷积和PReLU激活函数、反二维快速傅里叶变换后与原始流入频域分支的特征进行通道级相加操作,再通过卷积整合,得到频域分支的输出特征;
最后,空间域分支的输出特征和频域分支的输出特征通过concat操作拼接,再经过卷积得到空间傅里叶频率模块分支的输出特征。
6.根据权利要求1所述的一种图像超分辨率重建方法,其特征在于,多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征通过自适应融合模块进行特征融合,自适应融合模块生成两个可学习的权重张量并分别与多头自注意力分支的输出特征和空间傅里叶频率模块分支的输出特征进行通道级相乘,再通过1×1卷积来整合融合后的特征;
在混合注意力模块的前向反馈模块部分,采用深度门控前向网络进一步学习和传输特征得到混合注意力模块的输出特征FHAB
所述深度门控前向网络包括层归一化、卷积、ReLU激活函数、元素级乘法和通道相加操作;流入深度门控前向网络的特征首先经过层归一化,然后流入并行的两分支进行卷积和深度卷积,并且特征通道数量翻倍;其中一个分支的特征先经过ReLU激活函数,然后和另一分支的特征进行元素级乘法来抑制不相关的信息,然后经过1×1卷积再和原始流入深度门控前向网络的特征进行通道级相加操作,整个过程如下式所示:
Figure FDA0004141029050000031
其中,
Figure FDA0004141029050000032
表示层归一化;/>
Figure FDA0004141029050000033
表示通道级相加操作;fSFB表示空间傅里叶频率模块分支的操作;fMDTA表示多头自注意力分支的操作;fAFM表示自适应融合模块的操作;fGDFN表示深度门控前向网络的操作;/>
Figure FDA0004141029050000034
表示1×1卷积;Fs表示自适应融合模块输出的特征经过1×1卷积后与Fe进行通道级相加得到的特征。
7.根据权利要求6所述的一种图像超分辨率重建方法,其特征在于,通过以下过程得到MSACM模块的输出特征FMSACM
Figure FDA0004141029050000035
其中,
Figure FDA0004141029050000036
表示第一个混合注意力模块的操作运算,/>
Figure FDA0004141029050000037
表示第二个混合注意力模块的操作运算,/>
Figure FDA0004141029050000038
表示第n个混合注意力模块的操作运算。
8.根据权利要求1所述的一种图像超分辨率重建方法,其特征在于,步骤S3的具体过程为:
所述混合编解码器的最后一个MSACM模块输出深层特征Fd,Fd通过CARAFE上采样算子和3x3卷积得到上采样后的特征Ft,Ft与经过上采样后的低分辨率图片维度相加得到高分辨率图片Ih,表达式如下:
Figure FDA0004141029050000039
其中,
Figure FDA00041410290500000310
表示3×3卷积操作;CARAFE表示CARAFE上采样算子;/>
Figure FDA00041410290500000311
表示维度相加操作。
9.根据权利要求1所述的一种图像超分辨率重建方法,其特征在于,还包括引入考虑人类视觉感知和图像质量评价指标度量值的总损失函数:
Ltotal=PSNR(Ih,Ig)+λLCharbonnier(Ih,Ig)
损失函数LCharbonnier如下式所示:
Figure FDA00041410290500000312
其中,PSNR(·)表示PSNR损失函数;Ih,Ig分别表示超分辨率重建后的图像和原始高超分辨率的图像;λ、∈表示不同的常数。
10.根据权利要求9所述的一种图像超分辨率重建方法,其特征在于,λ为0.05,∈为0.001。
CN202310289789.6A 2023-03-21 2023-03-21 一种图像超分辨率重建方法 Pending CN116188274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310289789.6A CN116188274A (zh) 2023-03-21 2023-03-21 一种图像超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310289789.6A CN116188274A (zh) 2023-03-21 2023-03-21 一种图像超分辨率重建方法

Publications (1)

Publication Number Publication Date
CN116188274A true CN116188274A (zh) 2023-05-30

Family

ID=86452242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310289789.6A Pending CN116188274A (zh) 2023-03-21 2023-03-21 一种图像超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN116188274A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523759A (zh) * 2023-07-04 2023-08-01 江西财经大学 基于频率分解与重启机制的图像超分辨率重建方法与系统
CN117409331A (zh) * 2023-12-15 2024-01-16 四川泓宝润业工程技术有限公司 一种油气管线周边环境隐患检测方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523759A (zh) * 2023-07-04 2023-08-01 江西财经大学 基于频率分解与重启机制的图像超分辨率重建方法与系统
CN116523759B (zh) * 2023-07-04 2023-09-05 江西财经大学 基于频率分解与重启机制的图像超分辨率重建方法与系统
CN117409331A (zh) * 2023-12-15 2024-01-16 四川泓宝润业工程技术有限公司 一种油气管线周边环境隐患检测方法、装置及存储介质
CN117409331B (zh) * 2023-12-15 2024-03-15 四川泓宝润业工程技术有限公司 一种油气管线周边环境隐患检测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111275618B (zh) 一种基于双支感知的深度图超分辨率重建网络构建方法
CN106910161B (zh) 一种基于深度卷积神经网络的单幅图像超分辨率重建方法
CN116188274A (zh) 一种图像超分辨率重建方法
CN111709895A (zh) 基于注意力机制的图像盲去模糊方法及系统
CN111784582B (zh) 一种基于dec_se的低照度图像超分辨率重建方法
Luo et al. Lattice network for lightweight image restoration
CN114049261B (zh) 一种关注前景信息的图像超分辨率重建方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
CN114998145A (zh) 一种基于多尺度和上下文学习网络的低照度图像增强方法
CN114841859A (zh) 基于轻量神经网络和Transformer的单图像超分辨率重建方法
Yanshan et al. OGSRN: Optical-guided super-resolution network for SAR image
CN116468605A (zh) 基于时空分层掩膜注意力融合的视频超分辨率重建方法
CN115631107A (zh) 边缘引导的单幅图像噪声去除
Xiang et al. Remote sensing image compression with long-range convolution and improved non-local attention model
CN113627487B (zh) 一种基于深层注意力机制的超分辨率重建方法
Pham et al. CSIE-M: compressive sensing image enhancement using multiple reconstructed signals for internet of things surveillance systems
CN113034408B (zh) 一种红外热成像深度学习图像去噪方法及装置
CN117196959A (zh) 基于自注意力的红外图像超分辨率方法、装置及可读介质
CN116229083A (zh) 一种基于轻量u型结构网络的图像去噪方法
CN114529482B (zh) 基于小波多通道深度网络的图像压缩感知重建方法
CN115984392A (zh) 一种基于Transformer增强残差自编码网络的图像压缩感知重建方法
CN115601257A (zh) 一种基于局部特征和非局部特征的图像去模糊方法
CN116266336A (zh) 视频超分辨率重建方法、装置、计算设备及存储介质
Mu et al. Underwater image enhancement using a mixed generative adversarial network
Liu et al. LG-DBNet: Local and Global Dual-Branch Network for SAR Image Denoising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination