CN115601240A - 一种基于SwinTransformer的去马赛克重建彩色图像的方法 - Google Patents

一种基于SwinTransformer的去马赛克重建彩色图像的方法 Download PDF

Info

Publication number
CN115601240A
CN115601240A CN202211347627.5A CN202211347627A CN115601240A CN 115601240 A CN115601240 A CN 115601240A CN 202211347627 A CN202211347627 A CN 202211347627A CN 115601240 A CN115601240 A CN 115601240A
Authority
CN
China
Prior art keywords
image
swintransformer
images
training
demosaiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211347627.5A
Other languages
English (en)
Inventor
牛砚
张立雪
车翔玖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202211347627.5A priority Critical patent/CN115601240A/zh
Publication of CN115601240A publication Critical patent/CN115601240A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4015Image demosaicing, e.g. colour filter arrays [CFA] or Bayer patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于图像处理和深度学习领域,提供了一种基于SwinTransformer的去马赛克重建彩色图像的方法,包括以下步骤:1)构建数据集;2)采用基于SwinTransformer的图像恢复网络SwinIR,构建去马赛克模型;3)训练去马赛克模型;4)测试得到的去马赛克网络模型的性能。本发明提供了一种基于Swin Transformer的自注意力机制能够从Bayer图像重建RGB图像,对比卷积神经网络(CNN)的静态权重以及长程依赖,好处在于能够扩大感受野,注意到全局上下文的特征,对于纹理边缘细节也有更好的重建效果。

Description

一种基于SwinTransformer的去马赛克重建彩色图像的方法
技术领域
本发明属于图像处理和深度学习领域,尤其涉及一种基于SwinTransformer的去马赛克重建彩色图像的方法。
背景技术
数字彩色图像通常在每个像素位置由三个颜色值表示,计算机图像通常使用三种原色,即红色(R),绿色(G)和蓝色(B)。最初,光电传感器只能够对光的强度进行标记,而无法准确记录光的波长,即无法分辨光的颜色,只能拍黑白数码照片。而通过滤波阵列可以有效滤除或减小其他颜色的光对照片的影响,在每个像素位置上分别装配上红色,绿色和蓝色这三种颜色的滤镜,就可以得到这三种光的强度。大多数现代数码相机利用滤波阵列,使得每个像素位置只记录一个颜色通道(红色、绿色或蓝色)。彩色滤波阵列(ColorfilterArray,简称CFA)是数字成像设备的一个关键组成部件,是叠加在像素传感器上方的一层马赛克覆层,可以用它进行单色传感器的图像色彩信息采集。
通过引入滤波阵列来克服多传感器的昂贵花销问题以使用一个传感器完全捕获彩色图像。这意味着数码相机必须能够估算每个像素位置处缺少的两个颜色值才可以输出彩色图片,这样的重建彩色图像过程被称为去马赛克(Demosaicing)。为了恢复丢失的像素,提出了图像去马赛克模型,以从单通道马赛克图像重建全彩图像。去马赛克是数码相机成像的关键步骤,图像处理中的重要领域。去马赛克位于数字成像管道的开始,它将对所得到彩色图像的质量产生至关重要的影响。去马赛克过程的失误可能会显著削弱整个图像质量。
在过去的几十年里,通过插值进行去马赛克得到了很好的研究,这些先验信息大多是经过手工制作的,在一些特定的情况下会造成不自然的视觉假象,它们也常常不够精确,也无法再现复杂的图像局部结构。
近年来,深度学习取得了令人惊叹的成就,目前在去马赛克问题上,大多数都是基于CNN的架构设计,在模型上进行巧妙地设计增大网络深度以提升性能。如图像分类、目标检测和图像去马赛克重建等各种高层次和低级别的视觉任务,深度学习的效果都大大地超越了传统方法。但使用CNN也会不可避免的面对两个问题:卷积神经网络的静态权重,使用相同的卷积核来恢复不同的图像区域可能不是最佳选择;以及由于CNN更关注局部特征,所以卷积对于长程依赖性、全局的特征建模时效果不好。
发明内容
本发明的目的在于提供一种基于SwinTransformer的去马赛克重建彩色图像的方法,旨在解决背景技术中提到的问题。
本发明是这样实现的,一种基于SwinTransformer的去马赛克重建彩色图像的方法,包括以下步骤:
1)构建数据集:
所述数据集包括训练集、验证集和测试集,使用DIV2K和Flickr2K作为训练集,首先将图片裁剪成128×128像素的小图像用于训练,通过随机旋转90°、180°、270°和水平翻转来增强训练图像;
使用常用的数据集Urban100、McMaster、Kodak24以及BSD68作为测试集;
对训练集和测试集都进行预处理,对原始全彩RGB图像提取“RGGB”Bayer模式,重排为四个子图形式输入网络结构中;
2)采用基于SwinTransformer的图像恢复网络SwinIR,构建去马赛克模型:
SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成;
浅层特征提取模块采用一个3×3卷积层提取到96个浅层特征图,并将浅层特征直接传输到重构模块,以残差形式连接,保留低频信息;
深层特征提取模块主要由4个RSTB和1个3×3卷积层组成,每个RSTB残差块利用6个STL和一个3×3卷积层共同构成,进行局部注意力和交叉窗口的交互,其中特征图数量保持96不变,每个STL使用SwinTransformer结构;
高质量图像重建模块,由一层3×3卷积和PixelShuffle上采样组成,融合了浅层和深层特征用来恢复高质量的图像;
3)训练去马赛克模型:
将步骤1)处理好的训练集数据输入到步骤2)构建的去马赛克模型中,所述去马赛克模型每次随机批处理一部分图像进行学习,训练过程利用Adam优化器进行优化;
4)测试得到的去马赛克网络模型的性能:
将步骤1)处理好的测试集数据输入到步骤3)训练好的去马赛克模型中,输出的图像就是重建的全彩色去马赛克图像;
再通过计算去马赛克后的输出图像与原始图像之间的峰值信噪比(PSNR)、结构相似度(SSIM)和图像感知相似度(LPIPS),其结果可作为客观评价指标来衡量去马赛克效果。
进一步的技术方案,所述DIV2K包括800张用于训练的图像,所述Flickr2K包含2650张用于训练的图像。
进一步的技术方案,所述Urban100由100张图像组成,图像分辨率均不一致;
所述McMaster由18张图像组成,分辨率为500×500;
所述Kodak24由24张图像组成,分辨率为768×512;
所述BSD68由68张图像组成,分辨率为481×321。
进一步的技术方案,所述SwinTransformer结构包括第一层LayerNorm以及滑动窗口注意力,经残差连接后再一层LayerNorm,之后输入到MLP中。
进一步的技术方案,所述MLP包含第一个线性层,激活函数和第二个线性层。
进一步的技术方案,所述步骤3)中利用Adam优化器进行优化的参数分别为:β1和β2的默认值分别设置为0.9和0.999,使用StepLR调整学习率,学习率初始化为10-4,设置step_size为50,gamma为0.1,训练过程为20个epoch。
进一步的技术方案,所述峰值信噪比可用下述公式进行计算:
Figure BDA0003917786140000041
其中,MSE的计算公式为:
Figure BDA0003917786140000042
其中,PSNR越高代表恢复图像越真实;
所述结构相似度可用下述公式进行计算:
SSIM(p,q)=[l(p,q)]α[c(p,q)]β[s(p,q)]γ
其中,SSIM指标值是在从-1到1的范围内,越接近于1说明恢复图像越相似;
所述图像感知相似度可用下述公式进行计算:
Figure BDA0003917786140000043
其中,LPIPS则越接近于0恢复图像的感知相似度越高。
进一步的技术方案,在所述步骤3)中,训练所述去马赛克模型需要用到损失函数,所述损失函数为通过结合像素级的Ll1损失、基于特征的感知损失Lvgg和自适应阈值边缘损失Ledge的加权和,计算公式如下:
LTotal=Ledge1LVgg2Ll1
其中,参数λ1和λ2分别为5和50;
对于像素损失,Ll1是输出图像与其地面真相之间的L1损失;
对于感知损失,使用预先训练好的VGG16网络中提取特征,并计算特征空间中的L1距离;
对于边缘损失,使用自适应阈值Canny边缘检测将各分块提取边缘,并计算每块中成为边缘的概率,再基于概率来计算交叉熵损失,计算公式如下:
Figure BDA0003917786140000051
相较于现有技术,本发明的有益效果如下:
本发明提供了一种基于Swin Transformer的自注意力机制能够从Bayer图像重建RGB图像,对比卷积神经网络(CNN)的静态权重以及长程依赖,好处在于能够扩大感受野,注意到全局上下文的特征,对于纹理边缘细节也有更好的重建效果。
附图说明
图1为本发明的去马赛克网络结构示意图;
图2为本发明的深度特征提取模块结构示意图;
图3为本发明的SwinTransformer残差块(RSTB)的结构示意图;
图4为本发明的SwinTransformerlayer(STL)的结构示意图。
附图中:R为红色、G为绿色、B为蓝色。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
1.构建数据集:
包括训练集、验证集和测试集,使用DIV2K和Flickr2K作为训练集,DIV2K包括800张用于训练的图像,Flickr2K包含2650张用于训练的图像;首先将图片裁剪成128×128像素的小图像用于训练,通过随机旋转90°、180°、270°和水平翻转来增强训练图像;
使用常用的数据集Urban100、McMaster、Kodak24以及BSD68作为测试集,Urban100由100张图像组成,图像分辨率大小不一;McMaster由18张图像组成,分辨率为500×500;Kodak24由24张图像组成,分辨率为768×512;BSD68由68张图像组成,分辨率为481×321;
对训练集和测试集都进行预处理,对原始全彩RGB图像提取“RGGB”Bayer模式,重排为四个子图形式输入网络结构中。
2.采用基于SwinTransformer的图像恢复网络SwinIR,构建去马赛克模型:
SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成,如图1所示。
浅层特征提取模块采用一个3×3卷积层提取到96个浅层特征图,并将浅层特征直接传输到重构模块,以残差形式连接,保留低频信息;
深层特征提取模块主要由4个ResidualSwinTransformerBlock(RSTB)和1个3×3卷积层组成,如图2所示。每个RSTB残差块利用6个SwinTransformerlayer(STL)和一个3×3卷积层共同构成,如图3所示,进行局部注意力和交叉窗口的交互,其中特征图数量保持96不变。每个SwinTransformerlayer(STL)即使用SwinTransformer结构,如图4所示,包括第一层LayerNorm以及滑动窗口注意力,经残差连接后再一层LayerNorm,之后输入到MLP中;此处的MLP包含第一个线性层,激活函数和第二个线性层,此处的隐藏特征维度为嵌入层特征维度的4倍。
高质量图像重建模块是最后一步,由一层3×3卷积和PixelShuffle上采样组成,融合了浅层和深层特征用来恢复高质量的图像。
3.训练去马赛克模型:
将处理好的训练集数据输入到图像恢复网络中,网络每次随机批处理一部分图像进行学习,训练过程利用Adam优化器进行优化,β1和β2的默认值分别设置为0.9和0.999。使用StepLR调整学习率,学习率初始化为10-4,设置step_size为50,gamma为0.1,训练过程需要20个epoch。
损失函数为通过结合像素级的Ll1损失、基于特征的感知损失Lvgg和自适应阈值边缘损失Ledge的加权和。对于像素损失,Ll1是输出图像与其地面真相之间的L1损失。对于感知损失,使用预先训练好的VGG16网络中提取特征,并计算特征空间中的L1距离。对于边缘损失,使用自适应阈值Canny边缘检测将各分块提取边缘,并计算每块中成为边缘的概率,再基于概率来计算交叉熵损失。参数λ1和λ2分别被设置为5和50。
Figure BDA0003917786140000071
LTotal=Ledge1LVgg2Ll1
4.测试得到的去马赛克网络模型的性能:
将处理好的测试集数据输入到图像恢复网络中,输出的图像被认为就是重建的全彩色去马赛克图像,通过计算去马赛克后的输出图像与原始图像之间的峰值信噪比(PeakSignal-NoiseRatio,PSNR)、结构相似度(StructuralSimilarity,SSIM)和图像感知相似度(LearnedPerceptualImagePatchSimilarity,LPIPS)作为客观评价指标来衡量去马赛克效果。PSNR越高代表恢复图像越真实;SSIM指标值是在从-1到1的范围内,越接近于1说明恢复图像越相似;LPIPS则越接近于0恢复图像的感知相似度越高。
Figure BDA0003917786140000081
Figure BDA0003917786140000082
SSIM(p,q)=[l(p,q)]α[c(p,q)]β[s(p,q)]γ
Figure BDA0003917786140000083
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.一种基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,包括以下步骤:
1)构建数据集:
所述数据集包括训练集、验证集和测试集,使用DIV2K和Flickr2K作为训练集,首先将图片裁剪成128×128像素的小图像用于训练,通过随机旋转90°、180°、270°和水平翻转来增强训练图像;
使用常用的数据集Urban100、McMaster、Kodak24以及BSD68作为测试集;
对训练集和测试集都进行预处理,对原始全彩RGB图像提取“RGGB”Bayer模式,重排为四个子图形式输入网络结构中;
2)采用基于SwinTransformer的图像恢复网络SwinIR,构建去马赛克模型:
SwinIR由浅层特征提取、深度特征提取和高质量的图像重建三部分组成;
浅层特征提取模块采用一个3×3卷积层提取到96个浅层特征图,并将浅层特征直接传输到重构模块,以残差形式连接,保留低频信息;
深层特征提取模块主要由4个RSTB和1个3×3卷积层组成,每个RSTB残差块利用6个STL和一个3×3卷积层共同构成,进行局部注意力和交叉窗口的交互,其中特征图数量保持96不变,每个STL使用SwinTransformer结构;
高质量图像重建模块,由一层3×3卷积和PixelShuffle上采样组成,融合了浅层和深层特征用来恢复高质量的图像;
3)训练去马赛克模型:
将步骤1)处理好的训练集数据输入到步骤2)构建的去马赛克模型中,所述去马赛克模型每次随机批处理一部分图像进行学习,训练过程利用Adam优化器进行优化;
4)测试得到的去马赛克网络模型的性能:
将步骤1)处理好的测试集数据输入到步骤3)训练好的去马赛克模型中,输出的图像就是重建的全彩色去马赛克图像;
再通过计算去马赛克后的输出图像与原始图像之间的峰值信噪比、结构相似度和图像感知相似度,其结果可作为客观评价指标来衡量去马赛克效果。
2.根据权利要求1所述的基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,所述DIV2K包括800张用于训练的图像,所述Flickr2K包含2650张用于训练的图像。
3.根据权利要求1所述的基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,所述Urban100由100张图像组成,图像分辨率均不一致;
所述McMaster由18张图像组成,分辨率为500×500;
所述Kodak24由24张图像组成,分辨率为768×512;
所述BSD68由68张图像组成,分辨率为481×321。
4.根据权利要求2所述的基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,所述SwinTransformer结构包括第一层LayerNorm以及滑动窗口注意力,经残差连接后再一层LayerNorm,之后输入到MLP中。
5.根据权利要求4所述的基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,所述MLP包含第一个线性层,激活函数和第二个线性层。
6.根据权利要求1所述的基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,所述步骤3)中利用Adam优化器进行优化的参数分别为:β1和β2的默认值分别设置为0.9和0.999,使用StepLR调整学习率,学习率初始化为10-4,设置step_size为50,gamma为0.1,训练过程为20个epoch。
7.根据权利要求1所述的基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,所述峰值信噪比可用下述公式进行计算:
Figure FDA0003917786130000031
其中,MSE的计算公式为:
Figure FDA0003917786130000032
其中,PSNR越高代表恢复图像越真实;
所述结构相似度可用下述公式进行计算:
SSIM(p,q)=[l(p,q)]α[c(p,q)]β[s(p,q)]γ
其中,SSIM指标值是在从-1到1的范围内,越接近于1说明恢复图像越相似;
所述图像感知相似度可用下述公式进行计算:
Figure FDA0003917786130000033
其中,LPIPS则越接近于0恢复图像的感知相似度越高。
8.根据权利要求7所述的基于SwinTransformer的去马赛克重建彩色图像的方法,其特征在于,在所述步骤3)中,训练所述去马赛克模型需要用到损失函数,所述损失函数为通过结合像素级的Ll1损失、基于特征的感知损失Lvgg和自适应阈值边缘损失Ledge的加权和,计算公式如下:
LTotal=Ledge1LVgg2Ll1
其中,参数λ1和λ2分别为5和50;
对于像素损失,Ll1是输出图像与其地面真相之间的L1损失;
对于感知损失,使用预先训练好的VGG16网络中提取特征,并计算特征空间中的L1距离;
对于边缘损失,使用自适应阈值Canny边缘检测将各分块提取边缘,并计算每块中成为边缘的概率,再基于概率来计算交叉熵损失,计算公式如下:
Figure FDA0003917786130000041
CN202211347627.5A 2022-10-31 2022-10-31 一种基于SwinTransformer的去马赛克重建彩色图像的方法 Pending CN115601240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211347627.5A CN115601240A (zh) 2022-10-31 2022-10-31 一种基于SwinTransformer的去马赛克重建彩色图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211347627.5A CN115601240A (zh) 2022-10-31 2022-10-31 一种基于SwinTransformer的去马赛克重建彩色图像的方法

Publications (1)

Publication Number Publication Date
CN115601240A true CN115601240A (zh) 2023-01-13

Family

ID=84850799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211347627.5A Pending CN115601240A (zh) 2022-10-31 2022-10-31 一种基于SwinTransformer的去马赛克重建彩色图像的方法

Country Status (1)

Country Link
CN (1) CN115601240A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385317A (zh) * 2023-06-02 2023-07-04 河北工业大学 基于自适应卷积与Transformer混合结构的低剂量CT图像恢复方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385317A (zh) * 2023-06-02 2023-07-04 河北工业大学 基于自适应卷积与Transformer混合结构的低剂量CT图像恢复方法
CN116385317B (zh) * 2023-06-02 2023-08-01 河北工业大学 基于自适应卷积与Transformer混合结构的低剂量CT图像恢复方法

Similar Documents

Publication Publication Date Title
CN111127336B (zh) 一种基于自适应选择模块的图像信号处理方法
TWI542223B (zh) 利用全彩影像之雜訊減低彩色影像
CN112805744B (zh) 用于对多光谱图像去马赛克的系统和方法
CN103650486B (zh) 摄像装置和图像生成方法
Hu et al. Underwater image restoration based on convolutional neural network
CN111028165B (zh) 一种基于raw数据抵抗相机抖动的高动态图像恢复方法
CN112184591A (zh) 一种基于深度学习图像摩尔纹消除的图像复原方法
Niu et al. Low cost edge sensing for high quality demosaicking
CN111986084A (zh) 一种基于多任务融合的多相机低光照图像质量增强方法
CN108288256A (zh) 一种多光谱马赛克图像复原方法
CN112508812A (zh) 图像色偏校正方法、模型训练方法、装置及设备
CN111598789B (zh) 一种基于深度学习的稀疏颜色传感器图像重建方法
CN111833261A (zh) 一种基于注意力的生成对抗网络的图像超分辨率复原方法
CN112561799A (zh) 一种红外图像超分辨率重建方法
CN115601240A (zh) 一种基于SwinTransformer的去马赛克重建彩色图像的方法
CN104504672A (zh) 基于NormLV特征的低秩稀疏邻域嵌入超分辨方法
CN115018750A (zh) 中波红外高光谱及多光谱图像融合方法、系统及介质
CN115272072A (zh) 一种基于多特征图像融合的水下图像超分辨率方法
Paul et al. Maximum accurate medical image demosaicing using WRGB based Newton Gregory interpolation method
Zhao et al. FOV expansion of bioinspired multiband polarimetric imagers with convolutional neural networks
CN116563101A (zh) 一种基于频域残差的无人机图像盲超分辨率重建方法
CN110675320A (zh) 一种空间参数变化及复杂场景下目标图像清晰化方法
CN115760638A (zh) 一种基于深度学习的端到端去模糊超分辨率的方法
CN115841523A (zh) 一种基于Raw域的双支路HDR视频重建算法
CN113689346A (zh) 一种基于对比学习的紧凑深度学习去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination