CN117078539A

CN117078539A - 基于CNN-Transformer的局部全局交互式图像恢复方法

Info

Publication number: CN117078539A
Application number: CN202310899126.6A
Authority: CN
Inventors: 章春娥; 姜钰琪
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-11-17

Abstract

本发明提出一种基于CNN‑Transformer的局部全局交互式图像恢复方法，包括，获取合成模糊图像数据集作为训练集；构建基于CNN‑Transformer的局部全局交互式图像恢复模型，其中所述局部全局交互式图像恢复模型包括：CNN分支、Transformer分支、动态多头卷积注意力、增强门控前馈网络、交互学习‑耦合连接、交互学习‑跳跃连接；使用所述训练集对所述局部全局交互式图像恢复模型进行训练；获取待恢复图像，将所述待恢复图像输入训练好的局部全局交互式图像恢复模型中，进行图像降噪。通过本发明提出的方法，在尽可能减小网络计算量的同时，高效地将局部信息和全局信息进行耦合。

Description

基于CNN-Transformer的局部全局交互式图像恢复方法

技术领域

本发明属于计算机视觉领域。

背景技术

图像恢复任务是计算机视觉中的一个热门的研究课题，它的目的是从噪声观测中恢复出来干净的图像。这是一个极具挑战性的问题，因为在真实场景中存在着十分复杂的噪声场景。为了适应各种退化的噪声，现有的最先进的恢复技术—卷积神经网络算法(CNNs)和Transformer算法，经常通过从大规模数据中捕获自然图像的统计信息用来学习隐藏的先验知识和先验特征。

近年来，卷积神经网络和Transformer逐渐取代了传统的恢复方法，成为了最主流的恢复方式。卷积神经网络的核心是卷积运算，它分层地收集特征信息，用来获得更好的图像表示。虽然该方法在局部特征的提取方面取得了令人印象深刻的结果，但由于卷积运算的感受域有限，它缺乏捕获全局表示的能力。它对于长距离像素关系进行建模是很糟糕的。尽管人们试图通过加入注意力机制来提高网络在捕捉全局特征方面上的性能，但如果卷积没有与注意力机制适当地集成，局部特征细节甚至可能被破坏。

为了解决这个问题，最近的几项Transformer工作开始尝试使用位置块来提取参数向量作为视觉表示。这证明了它在全球信息的提取方面具有巨大的潜力。Transformer反映了复杂的空间变换和长程特征依赖性，通过自注意力机制(SA)层的结构来获得全局的特征表示。例如，用于低级视觉任务的预训练通用模型(IPT)可以通过多个头和尾巴共享一个躯干来处理不同的图像处理任务。Parmaret al提出了图像转换器，这是推广转换器模型以制定图像转换和生成任务的第一步。为了恢复高质量的图像，设计了一个基于SwinTransformer的强大基线模型，以自适应地方式处理各种恢复任务。虽然它善于通过多头自注意模块学习像素之间的长程依赖关系，但同时忽略了局部特征的细节，大大降低了背景和前景之间的可分辨性。除此之外，自注意力机制(SA)带来的计算和空间复杂性也是不可估量的。总的来说，卷积神经网络或Transformer只能在片面的基础上有效地获得有用的信息。在计算复杂性的保证下，它们都不能很好地同时从根本上平衡局部建模和全局建模之间的关系。

因此，如何在尽可能减小网络计算量的同时，高效地将局部信息和全局信息进行耦合成为了目前亟待解决的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于CNN-Transformer的局部全局交互式图像恢复方法，用于获取更准确和可靠的图像恢复结果。

为达上述目的，本发明第一方面实施例提出了一种基于CNN-Transformer的局部全局交互式图像恢复方法，包括：

获取合成模糊图像数据集作为训练集；

构建基于CNN-Transformer的局部全局交互式图像恢复模型，其中所述局部全局交互式图像恢复模型包括：CNN分支、Transformer分支、交互学习-耦合连接、交互学习-跳跃连接；

使用所述训练集对所述局部全局交互式图像恢复模型进行训练；

获取待恢复图像，将所述待恢复图像输入训练好的局部全局交互式图像恢复模型中，进行图像降噪。

另外，根据本发明上述实施例的一种基于CNN-Transformer的局部全局交互式图像恢复方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述基于CNN-Transformer的局部全局交互式图像恢复模型，利用CNN和Transformer结合的方式以及基于交互式学习的方法引导局部和全局信息的提取和耦合。

进一步地，在本发明的一个实施例中，所述利用CNN和Transformer结合的方式，包括设计一个耦合块用于耦合局部和全局的信息，所述耦合块为具有三明治结构的块，包括外部两侧的CNN分支和中间的Transformer分支；

所述基于交互式学习的方法包括块内耦合连接方法和用于交互式学习的块间跳跃连接方法。

进一步地，在本发明的一个实施例中，所述具有三明治结构的块，包括：

使用批量归一化和层归一化用来对齐特征值，并设计1×1卷积用来对齐耦合连接处的通道维度，用交互的方式桥接两个分支。

进一步地，在本发明的一个实施例中，所述的外部两侧的CNN分支，包括：

两个重复的卷积和注意力的步骤，位于耦合块的最外两侧；

每个卷积和注意力的步骤包含了改变特征图的通道数量的1×1卷积、调整特征图的分辨率的3×3深度卷积和预测特征图潜在关键特征的通道注意力块；

所述CNN分支用于通过堆叠一系列的卷积运算操作来逐渐扩大CNN的感受野。

进一步地，在本发明的一个实施例中，所述的中间的Transformer分支，用于：

接收由CNN分支操作完成后的具有局部线索的特征图；

全局范围内的信息聚合；

将Transformer分支处理后的特征图传输回到CNN分支；

在Transformer分支中细化自注意模块和前馈网络。

进一步地，在本发明的一个实施例中，所述块间跳跃连接方法，包括：

将通道注意力机制安装在U形结构中，并设置两个输入信号用于控制特征权重的调整。

进一步地，在本发明的一个实施例中，所述的自注意模块，包括：动态多头卷积注意力沿着两个不同的方向分别执行两个注意力映射，用于计算的跨特征通道，表示为：

其中，X₀和Y代表输入特征图和输出特征图，表示重构张量后的矩阵，W_1-L是1×1卷积和层归一化。

进一步地，在本发明的一个实施例中，所述的前馈网络，用于增强门控前馈网络使用GELU激活函数可以提高神经网络的性能和泛化能力，表示为：

Y＝Gating(X₀)+X₀

Gating(X₀)＝W_1-LAttG(W_DW₁(X₀))。

为达上述目的，本发明第二方面实施例提出了一种基于CNN-Transformer的局部全局交互式图像恢复装置，包括以下模块：

获取模块，用于获取合成模糊图像数据集作为训练集；

构建模块，用于构建基于CNN-Transformer的局部全局交互式图像恢复模型，其中所述局部全局交互式图像恢复模型包括：CNN分支、Transformer分支、动态多头卷积注意力、增强门控前馈网络、交互学习-耦合连接、交互学习-跳跃连接；

训练模块，用于使用所述训练集对所述局部全局交互式图像恢复模型进行训练；

恢复模块，用于获取待恢复图像，将所述待恢复图像输入训练好的局部全局交互式图像恢复模型中，进行图像降噪。

本发明实施例提出的基于CNN-Transformer的局部全局交互式图像恢复方法，为了实现特征信息的耦合并减少模型的计算量，提出了一个用于图像降噪的轻量级的高效耦合局部-全局双向网络。在编码器-解码器骨干结构的每个阶段中，本发明设计了一个具有两种分支策略的交互式耦合块。具体来说，CNN分支允许通过基于残差的局部卷积来更多地关注细节特征。位于中间的Transformer分支利用轻量级可学习的自我关注模块和前馈网络来监督全局的表示。动态多头卷积注意力模块使用多个卷积来产生投影坐标，该投影坐标对上下文中的像素之间的全局关系进行了动态建模。它通过互协方差隐式地对像素进行两次交互，分别来自键值和关键查询输出。这样减轻了高分辨率图像中的计算开销。GELU对增强门控前馈网络模块起到了非线性的作用，以混合相似的特征来控制互补信息的正向流动。它们的设计不仅确保了上下文信息的表示，而且降低了模型的计算压力。除此之外，块内“三明治”式融合和块外跳过连接的方案显著地增加了风格互补的潜力。因此，本发明的网络在图像降噪方面产生了优越的结果。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于CNN-Transformer的局部全局交互式图像恢复方法的流程示意图。

图2为本发明实施例所提供的一种基于CNN-Transformer的局部全局交互式图像恢复方法基本流程图。

图3为本发明实施例所提供的一种动态多头卷积注意力示意图。

图4为本发明实施例所提供的一种增强门控前馈网络示意图。

图5为本发明实施例所提供的一种基于CNN-Transformer的局部全局交互式图像恢复装置的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于CNN-Transformer的局部全局交互式图像恢复方法。

如图1所示，该基于CNN-Transformer的局部全局交互式图像恢复方法包括以下步骤：

S101：获取合成模糊图像数据集作为训练集；

在本发明中，GoPro数据集用于训练模型，HIDE和RealBlur数据集用于测试图像。

S102：构建基于CNN-Transformer的局部全局交互式图像恢复模型，其中局部全局交互式图像恢复模型包括：CNN分支、Transformer分支、交互学习-耦合连接、交互学习-跳跃连接；

如图2所示，本发明遵循了U形设计的原则，一种具有四个层次级和跳过连接的编码器-解码器。每个层次结构都包括几个耦合块，并且块的数量随着级别的增加而增加。一开始，给定降级的图像I∈R^H×W×3，其中H×W表示图像的高度和宽度。以及底层特征X₀∈R^H ^×W×3通过用3×3的卷积层和Bath归一化得到，其中C表示通道的数量。X₀首先应用了耦合块的CNN分支来获得特征图X_C1。然后，将带有局部信息的X_C1通过Transformer分支，以获得带有补充全局信息的特征X_T。再次将X_T返回到CNN分支中，用于特征的交叉融合，用于获得耦合输出X_C2。形式上，耦合块的公式为：

X_C1＝W_1-BW_3-BAtt(X₀),X_T＝EG(DM(X_C1)),X_C2＝W_1-BW_3-BAtt(X_T)，

其中W_1-B是与BN的1×1卷积，W_3-B是与BN和3×3卷积，Att是通道注意力模块(CA)，EG和DM分别表示增强门控前馈网络模块的总体操作和动态多头卷积注意力模块的总体操作。总的来说，经过三个下采样的耦合块和三个上采样的耦合块，得到了初始降噪特征XI。接下来再进行3×3的卷积，并对退化图像进行特征的纯化和求和。从而最终得到输出Y∈R^H ^×W×3。

CNN分支是基于ResNet的结构，在此网络算法中引入了CNN分支。如图2所示，CNN分支由两个重复的卷积和注意力的步骤组成，并位于耦合块的最外两侧。每个步骤包含了改变特征图的通道数量的1×1卷积、调整特征图的分辨率的3×3深度卷积和预测特征图潜在关键特征的通道注意力块。这个分层的CNN分支通过堆叠一系列的卷积运算操作来逐渐扩大了CNN的感受野，从而能够在特征图的局部范围内进行丰富的特征提取，并且同时也增加了图像中精细细节被保留的可能性。此外，它还设置了向Transformer分支进行后续馈送的阶段，作为对图像局部特征信息的补充和扩展。其中，1×1卷积是卷积神经网络中的一种卷积操作，它可以将输入的特征图进行通道维度上的线性变换，从而得到输出的特征图。1×1卷积的作用主要有两个方面：降低通道维度的维度和增加非线性变换。首先，1×1卷积可以通过设置适当的卷积核数量，将输入的特征图的通道数降低到较小的数量，从而减少模型的参数数量和计算量，提高模型的效率和泛化能力。其次，1×1卷积可以通过在通道维度上进行非线性变换，增加模型的非线性和表达能力，从而提高模型的性能和准确度。另外，3×3深度卷积可以从输入特征图中提取局部的特征，从而得到输出的特征图。3×3深度卷积的作用主要有三个方面：增加非线性变换，提取局部特征和减小感受野。首先，3×3深度卷积可以多次串联使用，形成多层深度卷积网络，从而增加模型的非线性和表达能力，提高模型的性能和准确度。其次，3×3深度卷积可以通过在输入特征图的不同位置进行卷积操作，提取不同的局部特征，从而实现对图像的高层次语义理解和特征提取。最后，3×3深度卷积可以通过多次堆叠和池化操作，逐渐减小感受野，从而实现对图像的多尺度感知和特征提取。

Transformer分支接收由CNN分支操作完成后的具有足够局部线索的特征图，用于在全局范围内的信息聚合。然后再继续将Transformer分支处理后的特征图传输回到CNN分支，以增强局部和全局特征的融合学习。通过这种“三明治”式的结构传递特征信息的方式，这两种分支相互作用，可以充分的利用它们的互补优势。又考虑到自注意力带来的巨大时间复杂性，本发明又在Transformer分支中细化了自注意模块和前馈网络。

如图3所示，为动态多头卷积注意力示意图。自注意力的空间复杂度和时间复杂度随着分辨率呈二次方增长。为了在网络性能和计算负载之间取得平衡，此发明在自注意力模块中进行了结构的改进，用并行动态动作取代了传统的自注意力模块。通过像素之间的注意力映射来捕捉图像中逐像素的相似性，这对于全局建模来说是至关重要的。因此，动态多头卷积注意力模块沿着两个不同的方向分别执行两个注意力映射，这个操作加强了跨尺度特征的表示学习。另外，为了克服计算瓶颈，动态多头卷积注意力模块计算的是跨特征通道而不是跨空间的互协方差矩阵。具体而言，此发明的动态多头卷积注意力模块首先应用具有相对较低参数数量和操作成本的三个深度卷积来对querie(Q)、key(K)和value(V)的投影进行编码。卷积算子的参与有利于维护和补充有用的局部上下文。接下来，精确的注意力映射M_Q∈R^C×C和M_V∈R^C×C使用结构相似的K作为中间体通过平行相互作用获得。然后从M_Q和M_V生成最终的注意力映射M_A。公式如下：

其中，X₀和Y代表输入特征图和输出特征图，表示重构张量后的矩阵，W_1-L是1×1卷积和层归一化，/>是3×3深度卷积。

如图4所示，为增强门控前馈网络示意图。为了控制和调节此发明的网络模型可以专注于更精密的细节特征，增强门控前馈网络模块使用两种卷积算子的编码信息来恢复空间位置的特征表示。根据最近的SOTA方法，增强门控前馈网络模块使用匹配非线性函数GELU激活函数来激活投影单元，而不是使用ReLU激活函数来激活。因为在实际应用中，使用GELU激活函数可以提高神经网络的性能和泛化能力。与ReLU激活函数相比，GELU激活函数可以在准确率和训练速度之间取得更好的平衡。并且ReLU激活函数在输入为负数时输出为0，因此可能会导致神经网络的过度稀疏性。而GELU激活函数在输入为负数时输出较小的非零值，可以更好地处理稀疏数据，避免了这个问题。并且受到启发，在控制信息权重的模块中增加了通道注意力机制，这样不仅可以满足计算效率的要求，而且还可以保持每个特征中的全局信息。在这项工作中，EGFF模块充分调节了每个阶段的互补信息流，以表示学习，从而能够产生高质量的输出。公式如下：

Y＝Gating(X₀)+X₀

Gating(X₀)＝W_1-LAttG(W_DW₁(X₀))。

此外，本发明设计了分别使用批量归一化(BN)和层归一化(LayerNormalization，LN)用来对齐特征值，并设计了1×1卷积用来对齐耦合连接处的通道维度。

本发明在跳跃连接中设置了两个输入信号用来控制特征权重的调整。一种输入是解码器中上采样之后的特征图，该特征图富含了更多特征细节；另一个输入是保留了足够的上下文语义特征的在编码器中先前输出的粗略特征图。这两种输入通过敏感的注意力门的交互，来聚合为多尺度的信息。

S103：使用训练集对局部全局交互式图像恢复模型进行训练；

S104：获取待恢复图像，将待恢复图像输入训练好的局部全局交互式图像恢复模型中，进行图像降噪。

进一步地，在本发明的一个实施例中，基于CNN-Transformer的局部全局交互式图像恢复模型，利用CNN和Transformer结合的方式以及基于交互式学习的方法引导局部和全局信息的提取和耦合。

进一步地，在本发明的一个实施例中，利用CNN和Transformer结合的方式，包括设计一个耦合块用于耦合局部和全局的信息，耦合块为具有三明治结构的块，包括外部两侧的CNN分支和中间的Transformer分支；

基于交互式学习的方法包括块内耦合连接方法和用于交互式学习的块间跳跃连接方法。

进一步地，在本发明的一个实施例中，具有三明治结构的块，包括：

进一步地，在本发明的一个实施例中，的外部两侧的CNN分支，包括：

两个重复的卷积和注意力的步骤，位于耦合块的最外两侧；

CNN分支用于通过堆叠一系列的卷积运算操作来逐渐扩大CNN的感受野。

接收由CNN分支操作完成后的具有局部线索的特征图；

全局范围内的信息聚合；

将Transformer分支处理后的特征图传输回到CNN分支；

在Transformer分支中细化自注意模块和前馈网络。

进一步地，在本发明的一个实施例中，块间跳跃连接方法，包括：

Y＝Gating(X₀)+X₀

Gating(X₀)＝W_1-LAttG(W_DW₁(X₀))。

本发明提出的基于CNN-Transformer的局部全局交互式图像恢复方法，通过CNN与Transformer结合的方式有效地耦合了局部和全局的信息。本发明的网络模型通过以交互的方法最大限度地融合了不同分辨率的局部特征和全局表示。在许多不同的数据集上的实验结果证明了其在客观和主观性能方面优于现有的方法。

为了实现上述实施例，本发明还提出基于CNN-Transformer的局部全局交互式图像恢复装置。

图5为本发明实施例提供的一种基于CNN-Transformer的局部全局交互式图像恢复装置的结构示意图。

如图5所示，该基于CNN-Transformer的局部全局交互式图像恢复装置包括：获取模块100，构建模块200，训练模块300，恢复模块400，其中，

获取模块，用于获取合成模糊图像数据集作为训练集；

构建模块，用于构建基于CNN-Transformer的局部全局交互式图像恢复模型，其中局部全局交互式图像恢复模型包括：CNN分支、Transformer分支、交互学习-耦合连接、交互学习-跳跃连接；

训练模块，用于使用训练集对局部全局交互式图像恢复模型进行训练；

恢复模块，用于获取待恢复图像，将待恢复图像输入训练好的局部全局交互式图像恢复模型中，进行图像降噪。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于CNN-Transformer的局部全局交互式图像恢复方法，其特征在于，包括以下步骤：

获取合成模糊图像数据集作为训练集；

2.根据权利要求1所述的方法，其特征在于，所述基于CNN-Transformer的局部全局交互式图像恢复模型，利用CNN和Transformer结合的方式以及基于交互式学习的方法引导局部和全局信息的提取和耦合。

3.根据权利要求2所述的方法，其特征在于，所述利用CNN和Transformer结合的方式，包括设计一个耦合块用于耦合局部和全局的信息，所述耦合块为具有三明治结构的块，包括外部两侧的CNN分支和中间的Transformer分支；

4.根据权利要求3所述的方法，其特征在于，所述具有三明治结构的块，包括：

5.根据权利要求3所述的方法，其特征在于，所述的外部两侧的CNN分支，包括：

两个重复的卷积和注意力的步骤，位于耦合块的最外两侧；

6.根据权利要求3所述的方法，其特征在于，所述的中间的Transformer分支，用于：

接收由CNN分支操作完成后的具有局部线索的特征图；

全局范围内的信息聚合；

将Transformer分支处理后的特征图传输回到CNN分支；

在Transformer分支中细化自注意模块和前馈网络。

7.根据权利要求3所述的方法，其特征在于，所述块间跳跃连接方法，包括：

8.根据权利要求6所述的方法，其特征在于，所述的自注意模块，包括：动态多头卷积注意力沿着两个不同的方向分别执行两个注意力映射，用于计算的跨特征通道，表示为：

9.根据权利要求6所述的方法，其特征在于，所述的前馈网络，用于增强门控前馈网络使用GELU激活函数可以提高神经网络的性能和泛化能力，表示为：

Y＝Gating(X₀)+X₀

Gating(X₀)＝W_1-LAttG(W_DW₁(X₀))。

10.一种基于CNN-Transformer的局部全局交互式图像恢复装置，其特征在于，包括以下模块：

获取模块，用于获取合成模糊图像数据集作为训练集；