CN117422614B

CN117422614B - 基于混合特征交互Transformer的单帧图像超分辨率方法及装置

Info

Publication number: CN117422614B
Application number: CN202311745925.4A
Authority: CN
Inventors: 曾焕强; 朱显丞; 朱建清; 陈婧; 施一帆; 林琦; 陈斌; 陈志达; 卢伟; 夏至贤
Original assignee: Xiamen Solex High Tech Industries Co Ltd; Huaqiao University
Current assignee: Xiamen Solex High Tech Industries Co Ltd; Huaqiao University
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-12
Anticipated expiration: 2043-12-19
Also published as: CN117422614A

Abstract

本发明公开了一种基于混合特征交互Transformer的单帧图像超分辨率方法及装置，涉及图像处理领域，包括：获取待重建的低分辨率图像；构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，深层特征提取单元包括依次连接的P个混合特征交互Transformer模块；将低分辨率图像输入经训练的单帧图像超分辨率模型，通过浅层特征提取单元提取浅层特征，将浅层特征输入深层特征提取单元提取得到深层特征，将深层特征输入上采样重建单元，重建得到高分辨率重建图像，解决Transformer的SR方法忽略不同维度的特征之间的潜在关联性，影响重建性能的问题。

Description

基于混合特征交互Transformer的单帧图像超分辨率方法及装置

技术领域

本发明涉及图像处理领域，具体涉及一种基于混合特征交互Transformer的单帧图像超分辨率方法及装置。

背景技术

图像超分辨率(image Super-Resolution, SR)是计算机视觉和图像处理的关键任务之一，它旨在从已有的低分辨率(Low-Resolution, LR)图像中重建高质量的高分辨率(High-Resolution, HR)图像。近来，基于卷积神经网络(Convolutional Neural Network,CNN)的SR方法由于其强大的特征表示、端到端的可训练范式、卓越的性能，在图像SR领域占据主导地位。然而，由于卷积操作通过使用固定的滑动窗口来提取小邻域内的局部特征，基于CNN的SR方法的信息性像素有限。当前，Transformer作为一种新颖的CNN代替方案，在多种低级视觉任务上取得良好的表现。

对于图像SR，Liang等人提出了一种基于Swin Transformer的SR模型，即SwinIR。SwinIR采用了一种分层设计，将相似性计算限制在局部窗口中，并利用移动窗口机制来增强跨窗口的信息交互。然而，SwinIR由于使用基于窗口的自注意力，放弃了全局信息推理，Transformer的性能受到限制。为了激活更多有助于图像 SR的信息性像素，Chen等人提出了HAT，其中引入通道注意力以更好地聚合跨窗口信息。Wang等人提出了Omni-SR，能够同时建模空间和窗口维度之间的像素级信息交互。然而，现有的基于Transformer的SR方法一般通过串行或并行的操作捕捉空间、通道间的关系，却忽略了不同维度的特征之间的潜在关联性，从而限制了基于Transformer的SR方法的性能。

发明内容

针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于混合特征交互Transformer的单帧图像超分辨率方法及装置，克服现有Transformer方法忽略不同维度的特征之间的潜在关联性的问题，通过鼓励跨维度的特征交互，显著提升图像超分辨率方法的全局特征表达能力和细节重建能力。

第一方面，本发明提供了一种基于混合特征交互Transformer的单帧图像超分辨率方法，包括以下步骤：

获取待重建的低分辨率图像；

构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，深层特征提取单元包括依次连接的P个混合特征交互Transformer模块；

将待重建的低分辨率图像输入经训练的单帧图像超分辨率模型，通过浅层特征提取单元提取浅层特征，将浅层特征输入深层特征提取单元提取得到深层特征，将深层特征输入上采样重建单元，重建得到高分辨率重建图像。

作为优选，混合特征交互Transformer模块包括高效局部特征提取单元、第一层标准化层、混合特征交互自注意力单元、第二层标准化层和混合尺度前馈神经网络，混合特征交互Transformer模块的输入依次经过高效局部特征提取单元和第一层标准化层，第一层标准化层的输出与混合特征交互Transformer模块的输入相加，得到第一混合特征，第一混合特征依次经过混合特征交互自注意力单元和第二层标准化层，第二层标准化层的输出与第一混合特征相加，得到第二混合特征，第二混合特征输入混合尺度前馈神经网络，得到混合特征交互Transformer模块的输出。

作为优选，高效局部特征提取单元包括依次连接的第一位移卷积层、第一GeLU激活函数层、第二位移卷积层、SE模块和第三位移卷积层，高效局部特征提取单元的计算过程如下：

；

其中，表示高效局部特征提取单元的函数，/>表示第一位移卷积层、第二位移卷积层或第三位移卷积层的位移卷积操作，/>表示SE模块的函数，/>表示GeLU激活函数。

作为优选，混合特征交互自注意力单元包括局部窗口自注意力分支、深度卷积分支和双向特征交互单元，双向特征交互单元包括空间交互单元和通道交互单元，通道交互单元包括依次连接的全局平均池化层、第一卷积层、第一批标准化层，第二GeLU激活函数层、第二卷积层和第一Sigmoid激活函数层，空间交互单元包括依次连接的第三卷积层、第二批标准化层、第三GeLU激活函数层、第四卷积层和第二Sigmoid激活函数，局部窗口自注意力分支包括查询线性层、键线性层、值线性层和局部窗口自注意力模块，深度卷积分支包括卷积核大小为3×3的第一深度卷积层，第一深度卷积层输出的局部特征输入通道交互单元，得到通道级动态权重，通道级动态权重输入局部窗口自注意力分支中对值线性层输出的值特征图进行自适应校正；局部窗口自注意力模块输出的全局特征输入空间交互单元，得到空间级动态权重，空间级动态权重输入深度卷积分支中对局部特征进行自适应校正。

作为优选，混合特征交互自注意力单元的计算过程如下：

将输入混合特征交互自注意力单元的第一特征图输入第一深度卷积层，得到局部特征/>，其中，/>表示实数多维空间，C、H、W分别表示第一特征图的通道数量、长度和宽度，/>表示形状为C×H×W的三维数据，窗口尺寸为S，其表达式如下：

；

其中，表示第一深度卷积层的函数；

将局部特征输入通道交互单元，获得通道级动态权重/>，其表达式如下：

；

其中，表示通道交互单元的函数；

将第一特征图X分割为N个窗口尺寸为S×S的非重叠窗口，其中，/>表示形状为/>的二维数据，分别通过查询线性层、键线性层、值线性层将非重叠窗口/>分别转换为查询特征图/>、键特征图/>和值特征图/>，其表达式如下：

；

其中，分别表示查询线性层、键线性层、值线性层的函数；

将值特征图V的数据格式由转换为/>并与通道级动态权重/>相乘，以对值特征图V进行自适应校正，随后再将数据格式还原为/>，校正后的结果记作/>；

执行局部窗口自注意力模块的计算，以获得全局特征，表达式如下：

；

其中，T表示转置矩阵，Softmax表示Softmax函数；

将全局特征的数据格式由/>转换为/>，并输入空间交互单元，以获得空间级动态权重/>，其表达式如下：

；

其中，表示空间交互单元的函数；

通过将空间级动态权重与全局特征/>相乘，以对全局特征/>进行自适应校正，其校正后的结果记作/>；

最后，将全局特征与/>相加，以获得混合特征/>。

作为优选，混合尺度前馈神经网络包括第一分支、第二分支和第五卷积层，第一分支包括依次连接的第二深度卷积层、第一ReLU激活函数层、第三深度卷积层和第二ReLU激活函数层，第二分支包括依次连接的第四深度卷积层、第三ReLU激活函数层、第五深度卷积层和第四ReLU激活函数层，其中第二深度卷积层和第五深度卷积层的卷积核大小为7×7，第三深度卷积层和第四深度卷积层的卷积核大小为5×5，具体计算过程如下：

沿着通道维度将输入混合尺度前馈神经网络的第二特征图将X’切分为均等的两份，得到切分后的特征/>和/>，/>表示形状为/>的三维数据，将/>和/>分别输入第一分支和第二分支进行混合交叉特征提取，分别输出第一交叉特征和第二交叉特征，将第一交叉特征和第二交叉特征进行拼接后输入第五卷积层，第五卷积层的输出与第二特征图相加，得到混合尺度特征，其表达式如下：

；

其中，表示ReLU激活函数，/>和/>分别表示卷积核为5×5和7×7的深度卷积层的函数，/>表示卷积核大小为1×1的第五卷积层的函数，/>表示拼接操作，/>、/>分别表示第一特征和第二特征，/>、/>分别表示第一交叉特征和第二交叉特征。

作为优选，单帧图像超分辨率模型的具体结构和计算过程如下：

浅层特征提取单元采用第六卷积层，浅层特征提取单元的计算过程如下：

；

其中，表示浅层特征/>，/>表示卷积核为3×3的第六卷积层的函数，/>表示低分辨率图像；

利用P个混合特征交互Transformer模块提取特征，并利用长跳跃连接将传递至网络末端，与第P个混合特征交互Transformer模块的输出相加以进行残差学习，其表达式如下：

；

其中，表示第i-1个所述混合特征交互Transformer模块的输出，MF^P表示第P个所述混合特征交互Transformer模块的函数，MF¹表示第1个所述混合特征交互Transformer模块的函数，MF²表示第2个所述混合特征交互Transformer模块的函数，MFⁱ表示第i个混合特征交互Transformer模块的函数，/>表示第i个混合特征交互Transformer模块的输出，表示深层特征，/>；

上采样重建单元包括尺度因子为scale的亚像素卷积层和卷积核为3×3的第七卷积层，其表达式如下：

；

其中，表示亚像素卷积层的函数，/>表示第七卷积层的函数，/>表示高分辨率重建图像，/>，/>表示形状为3×(H×scale)×(W×scale)的三维数据。

第二方面，本发明提供了一种基于混合特征交互Transformer的单帧图像超分辨率装置，包括：

图像获取模块，被配置为获取待重建的低分辨率图像；

模型构建模块，被配置为构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，深层特征提取单元包括依次连接的P个混合特征交互Transformer模块；

重建模块，被配置为将待重建的低分辨率图像输入经训练的单帧图像超分辨率模型，通过浅层特征提取单元提取浅层特征，将浅层特征输入深层特征提取单元提取得到深层特征，将深层特征输入上采样重建单元，重建得到高分辨率重建图像。

第三方面，本发明提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

相比于现有技术，本发明具有以下有益效果：

（1）本发明提出的基于混合特征交互Transformer的单帧图像超分辨率方法中的混合特征交互自注意力单元采用双分支结构结合双向特征交互单元，双分支结构在标准的局部窗口自注意力单元的基础上，额外引入一个与局部窗口自注意力单元平行的深度卷积分支，能够增强Transformer的跨窗口特征交互能力，该双向特征交互单元能为双分支结构提供互补的线索，充分考虑不同类型特征之间的互补性，能够显著提升信息利用率和图像超分辨率性能。

（2）本发明提出的基于混合特征交互Transformer的单帧图像超分辨率方法能够克服现有Transformer方法忽略不同维度的特征之间的潜在关联性的问题，通过鼓励跨维度的特征交互，显著提升图像超分辨率方法的全局特征表达能力和细节重建能力。

（3）本发明提出的基于混合特征交互Transformer的单帧图像超分辨率方法与现有的单帧图像超分辨率方法相比，具有较低的参数量和Flops值，综合性能最优，能够利用更少的计算资源实现高性能的图像超分辨率重建。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本申请的实施例的基于混合特征交互Transformer的单帧图像超分辨率方法的流程示意图；

图3为本申请的实施例的基于混合特征交互Transformer的单帧图像超分辨率方法的高效局部特征提取单元的结构示意图；

图4为本申请的实施例的基于混合特征交互Transformer的单帧图像超分辨率方法的混合特征交互自注意力单元的结构示意图；

图5为本申请的实施例的基于混合特征交互Transformer的单帧图像超分辨率方法的混合尺度前馈神经网络的结构示意图；

图6为本申请的实施例的基于混合特征交互Transformer的单帧图像超分辨率方法的混合特征交互Transformer模块的结构示意图；

图7为本申请的实施例的基于混合特征交互Transformer的单帧图像超分辨率方法的基于混合特征交互Transformer的单帧图像超分辨率模型的结构示意图；

图8为本申请的实施例的基于混合特征交互Transformer的单帧图像超分辨率装置的示意图；

图9是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了可以应用本申请实施例的基于混合特征交互Transformer的单帧图像超分辨率方法或基于混合特征交互Transformer的单帧图像超分辨率装置的示例性装置架构100。

如图1所示，装置架构100可以包括终端设备一101、终端设备二102、终端设备三103，网络104和服务器105。网络104用以在终端设备一101、终端设备二102、终端设备三103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备一101、终端设备二102、终端设备三103通过网络104与服务器105交互，以接收或发送消息等。终端设备一101、终端设备二102、终端设备三103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。

终端设备一101、终端设备二102、终端设备三103可以是硬件，也可以是软件。当终端设备一101、终端设备二102、终端设备三103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备一101、终端设备二102、终端设备三103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块（例如用来提供分布式服务的软件或软件模块），也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备一101、终端设备二102、终端设备三103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。

需要说明的是，本申请实施例所提供的基于混合特征交互Transformer的单帧图像超分辨率方法可以由服务器105执行，也可以由终端设备一101、终端设备二102、终端设备三103执行，相应地，基于混合特征交互Transformer的单帧图像超分辨率装置可以设置于服务器105中，也可以设置于终端设备一101、终端设备二102、终端设备三103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。

图2示出了本申请的实施例提供的一种基于混合特征交互Transformer的单帧图像超分辨率方法，包括以下步骤：

S1，获取待重建的低分辨率图像。

具体的，收集待重建的低分辨率图像，该低分辨率图像为单帧图像。

S2，构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，深层特征提取单元包括依次连接的P个混合特征交互Transformer模块。

在具体的实施例中，混合特征交互Transformer模块包括高效局部特征提取单元、第一层标准化层、混合特征交互自注意力单元、第二层标准化层和混合尺度前馈神经网络，混合特征交互Transformer模块的输入依次经过高效局部特征提取单元和第一层标准化层，第一层标准化层的输出与混合特征交互Transformer模块的输入相加，得到第一混合特征，第一混合特征依次经过混合特征交互自注意力单元和第二层标准化层，第二层标准化层的输出与第一混合特征相加，得到第二混合特征，第二混合特征输入混合尺度前馈神经网络，得到混合特征交互Transformer模块的输出。

在具体的实施例中，高效局部特征提取单元包括依次连接的第一位移卷积层、第一GeLU激活函数层、第二位移卷积层、SE模块和第三位移卷积层，高效局部特征提取单元的计算过程如下：

；

在具体的实施例中，混合特征交互自注意力单元包括局部窗口自注意力分支、深度卷积分支和双向特征交互单元，双向特征交互单元包括空间交互单元和通道交互单元，通道交互单元包括依次连接的全局平均池化层、第一卷积层、第一批标准化层，第二GeLU激活函数层、第二卷积层和第一Sigmoid激活函数层，空间交互单元包括依次连接的第三卷积层、第二批标准化层、第三GeLU激活函数层、第四卷积层和第二Sigmoid激活函数，局部窗口自注意力分支包括查询线性层、键线性层、值线性层和局部窗口自注意力模块，深度卷积分支包括卷积核大小为3×3的第一深度卷积层，第一深度卷积层输出的局部特征输入通道交互单元，得到通道级动态权重，通道级动态权重输入局部窗口自注意力分支中对值线性层输出的值特征图进行自适应校正；局部窗口自注意力模块输出的全局特征输入空间交互单元，得到空间级动态权重，空间级动态权重输入深度卷积分支中对局部特征进行自适应校正。

在具体的实施例中，混合特征交互自注意力单元的计算过程如下：

将输入混合特征交互自注意力单元的第一特征图输入第一深度卷积层，得到局部特征/>，其中，/>表示实数多维空间，C、H、W分别表示第一特征图的通道数量、长度和宽度，窗口尺寸为S，/>表示形状为C×H×W的三维数据，其表达式如下：

；

其中，表示第一深度卷积层的函数；

；

其中，表示通道交互单元的函数；

；

其中，分别表示查询线性层、键线性层、值线性层的函数；

；

其中，T表示转置矩阵，Softmax表示Softmax函数；

；

其中，表示空间交互单元的函数；

最后，将全局特征与/>相加，以获得混合特征/>。

在具体的实施例中，混合尺度前馈神经网络包括第一分支、第二分支和第五卷积层，第一分支包括依次连接的第二深度卷积层、第一ReLU激活函数层、第三深度卷积层和第二ReLU激活函数层，第二分支包括依次连接的第四深度卷积层、第三ReLU激活函数层、第五深度卷积层和第四ReLU激活函数层，其中第二深度卷积层和第五深度卷积层的卷积核大小为7×7，第三深度卷积层和第四深度卷积层的卷积核大小为5×5，具体计算过程如下：

；

具体的，参考图3，可先构建高效局部特征提取单元，该高效局部特征提取单元依次由第一位移卷积层、第一GeLU激活函数层、第二位移卷积层、SE模块和第三位移卷积层级联构成，其中，SE模块为压缩-激励模块（Squeeze-Excitation Module）。参考图4，再构建混合特征交互自注意力单元，混合特征交互自注意力单元在标准的局部窗口自注意力单元的基础上，通过增加两个关键设计而构建：（1）双分支结构，包括局部窗口自注意力分支和深度卷积分支；（2）双向特征交互单元。具体地，通过设计一个简洁的双分支结构，为标准的局部窗口自注意力单元引入一个与其平行的深度卷积层，以增强跨窗口的特征交互。双向特征交互单元包括空间交互单元和通道交互单元，深度卷积分支的信息首先通过空间交互单元流入局部窗口自注意力分支；然后，局部窗口自注意力分支的信息通过空间交互单元流入深度卷积分支。因此，本申请的实施例所提出的双向特征交互单元能为双分支结构提供互补的线索，以增强信息利用率。具体的，该通道交互单元由全局平均池化层、卷积核大小为3×3的第一卷积层、第一批标准化层，第二GeLU激活函数层、卷积核大小为3×3的第二卷积层和第一Sigmoid激活函数层级联构成。该空间交互单元由卷积核大小为3×3的第三卷积层、第二批标准化层、第三GeLU激活函数层、卷积核大小为3×3的第四卷积层和第二Sigmoid激活函数级联构成。而后，参考图5，再构建混合尺度前馈神经网络包括两条多尺度深度卷积分支，该两条多尺度深度卷积分支通过交替使用卷积核大小为5×5的深度卷积层、卷积核大小为7×7的深度卷积层实现混合特征提取，每个深度卷积层后面均连接一个ReLU激活函数层，最后利用卷积核大小为1×1的第五卷积层融合两条分支的输出，得到混合尺度特征。

进一步的，参考图6，整合高效局部特征提取单元、混合特征交互自注意力单元和混合尺度前馈神经网络构建混合特征交互Transformer模块，该混合特征交互Transformer模块通过依次由高效局部特征提取单元、第一层标准化层、混合特征交互自注意力单元、第二层标准化层、混合尺度前馈神经网络级联构成。

最后，参考图7，构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型。

S3，将待重建的低分辨率图像输入经训练的单帧图像超分辨率模型，通过浅层特征提取单元提取浅层特征，将浅层特征输入深层特征提取单元提取得到深层特征，将深层特征输入上采样重建单元，重建得到高分辨率重建图像。

在具体的实施例中，单帧图像超分辨率模型的具体结构和计算过程如下：

；

利用P个混合特征交互Transformer模块提取特征，并利用长跳跃连接将传递至网络末端，与第P个混合特征交互Transformer模块的输出相加以进行残差学习，其表达式如下：/>

；

具体的，使用经训练的单帧图像超分辨率模块对待重建的低分辨率图像进行重建，得到重建结果。该经训练的单帧图像超分辨率模块由三个部分组成：浅层特征提取单元、深层特征提取单元、上采样重建单元。针对给定的待重建的低分辨率图像，缩放因子scale作为输入，其中，scale的值为需求的放大倍数，例如scale为2、3、4或8。

将本申请的实施例提出的一种基于混合特征交互Transformer的单帧图像超分辨率方法与目前最先进的单帧图像超分辨率方法进行比较。在本对比实验中，使用DIV2K作为训练集，Set5、Se14、BSD100和Urban100作为测试集，目标缩放因子为2。利用定量指标PSNR和SSIM评价重建图像质量，越高的PSNR和SSIM数值对应越高的SR性能。利用定量指标参数量(Params)和Flops衡量模型规模和执行速度，参数量越低，表示模型规模越小，Flops值越低，表示模型执行速度越快。为了满足真实应用场景的需求，设计具有低参数量、低Flops值却能生成具有高PSNR和SSIM的重建图像的图像超分辨率方法是图像超分辨率领域的重要目标。如表1所示，与其他方法相比，本申请的实施例所提出的方法以最低的参数量、最低的Flops值在四个测试集获得最高的PSNR和SSIM。因此，表1充分说明了本申请的实施例所提出的一种基于混合特征交互Transformer的单帧图像超分辨率方法与其他方法相比，展示了最优的综合性能。

表1

以上步骤S1-S3并不仅仅代表步骤之间的顺序，而是步骤符号表示。

进一步参考图8，作为对上述各图所示方法的实现，本申请提供了一种基于混合特征交互Transformer的单帧图像超分辨率装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

本申请实施例提供了一种基于混合特征交互Transformer的单帧图像超分辨率装置，包括：

图像获取模块1，被配置为获取待重建的低分辨率图像；

模型构建模块2，被配置为构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，深层特征提取单元包括依次连接的P个混合特征交互Transformer模块；

重建模块3，被配置为将待重建的低分辨率图像输入经训练的单帧图像超分辨率模型，通过浅层特征提取单元提取浅层特征，将浅层特征输入深层特征提取单元提取得到深层特征，将深层特征输入上采样重建单元，重建得到高分辨率重建图像。

下面参考图9，其示出了适于用来实现本申请实施例的电子设备（例如图1所示的服务器或终端设备）的计算机装置900的结构示意图。图9示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机装置900包括中央处理单元（CPU）901和图形处理器（GPU）902，其可以根据存储在只读存储器（ROM）903中的程序或者从存储部分909加载到随机访问存储器（RAM）904中的程序而执行各种适当的动作和处理。在RAM 904中，还存储有计算机装置900操作所需的各种程序和数据。CPU 901、GPU902、ROM 903以及RAM 904通过总线905彼此相连。输入/输出（I/O）接口906也连接至总线905。

以下部件连接至I/O接口906：包括键盘、鼠标等的输入部分907；包括诸如、液晶显示器（LCD）等以及扬声器等的输出部分908；包括硬盘等的存储部分909；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分910。通信部分910经由诸如因特网的网络执行通信处理。驱动器911也可以根据需要连接至I/O接口906。可拆卸介质912，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器911上，以便于从其上读出的计算机程序根据需要被安装入存储部分909。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分910从网络上被下载和安装，和/或从可拆卸介质912被安装。在该计算机程序被中央处理单元（CPU）901和图形处理器（GPU）902执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，也可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待重建的低分辨率图像；构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，深层特征提取单元包括依次连接的P个混合特征交互Transformer模块；将待重建的低分辨率图像输入经训练的单帧图像超分辨率模型，通过浅层特征提取单元提取浅层特征，将浅层特征输入深层特征提取单元提取得到深层特征，将深层特征输入上采样重建单元，重建得到高分辨率重建图像。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于混合特征交互Transformer的单帧图像超分辨率方法，其特征在于，包括以下步骤：

获取待重建的低分辨率图像；

构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，所述单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，所述深层特征提取单元包括依次连接的P个混合特征交互Transformer模块；

将所述待重建的低分辨率图像输入所述经训练的单帧图像超分辨率模型，通过所述浅层特征提取单元提取浅层特征，将所述浅层特征输入所述深层特征提取单元提取得到深层特征，将所述深层特征输入所述上采样重建单元，重建得到高分辨率重建图像，所述浅层特征提取单元采用第六卷积层，所述浅层特征提取单元的计算过程如下：

F₀＝Conv_3×3(I_LR)；

其中，F₀表示浅层特征，Conv_3×3(·)表示卷积核为3×3的第六卷积层的函数，I_LR表示低分辨率图像；

利用P个所述混合特征交互Transformer模块提取特征，并利用长跳跃连接将F₀传递至网络末端，与第P个混合特征交互Transformer模块的输出相加以进行残差学习，其表达式如下：

F_i＝MFⁱ(F_i-1)，i∈[1，P]；

F_P0＝MF^P(…(MF²(MF¹(F₀)))))+F₀；

其中，F_i-1表示第i-1个所述混合特征交互Transformer模块的输出，MF^P表示第P个所述混合特征交互Transformer模块的函数，MF¹表示第1个所述混合特征交互Transformer模块的函数，MF²表示第2个所述混合特征交互Transformer模块的函数，MFⁱ表示第i个所述混合特征交互Transformer模块的函数，F_i表示第i个所述混合特征交互Transformer模块的输出，F_P0表示深层特征，

所述上采样重建单元包括尺度因子为scale的亚像素卷积层和卷积核为3×3的第七卷积层，其表达式如下：

I_SR＝Conv_3×3(f_up(F_P0))；

其中，f_up(·)表示亚像素卷积层的函数，Conv_3×3(·)表示第七卷积层的函数，I_SR表示高分辨率重建图像，表示形状为3×(H×scale)×(W×scale)的三维数据。

2.根据权利要求1所述的基于混合特征交互Transformer的单帧图像超分辨率方法，其特征在于，所述混合特征交互Transformer模块包括高效局部特征提取单元、第一层标准化层、混合特征交互自注意力单元、第二层标准化层和混合尺度前馈神经网络，所述混合特征交互Transformer模块的输入依次经过所述高效局部特征提取单元和第一层标准化层，所述第一层标准化层的输出与所述混合特征交互Transformer模块的输入相加，得到第一混合特征，所述第一混合特征依次经过所述混合特征交互自注意力单元和第二层标准化层，所述第二层标准化层的输出与所述第一混合特征相加，得到第二混合特征，所述第二混合特征输入所述混合尺度前馈神经网络，得到所述混合特征交互Transformer模块的输出。

3.根据权利要求2所述的基于混合特征交互Transformer的单帧图像超分辨率方法，其特征在于，所述高效局部特征提取单元包括依次连接的第一位移卷积层、第一GeLU激活函数层、第二位移卷积层、SE模块和第三位移卷积层，所述高效局部特征提取单元的计算过程如下：

H_ELF(·)＝F_shift-conv(F_SE(F_shift-conv(GeLU(F_shift-conv(·))))；

其中，H_ELF(·)表示高效局部特征提取单元的函数，F_shift-conv(·)表示第一位移卷积层、第二位移卷积层或第三位移卷积层的位移卷积操作，F_SE(·)表示SE模块的函数，GeLU(·)表示GeLU激活函数。

4.根据权利要求2所述的基于混合特征交互Transformer的单帧图像超分辨率方法，其特征在于，所述混合特征交互自注意力单元包括局部窗口自注意力分支、深度卷积分支和双向特征交互单元，所述双向特征交互单元包括空间交互单元和通道交互单元，所述通道交互单元包括依次连接的全局平均池化层、第一卷积层、第一批标准化层，第二GeLU激活函数层、第二卷积层和第一Sigmoid激活函数层，所述空间交互单元包括依次连接的第三卷积层、第二批标准化层、第三GeLU激活函数层、第四卷积层和第二Sigmoid激活函数，所述局部窗口自注意力分支包括查询线性层、键线性层、值线性层和局部窗口自注意力模块，所述深度卷积分支包括卷积核大小为3×3的第一深度卷积层，所述第一深度卷积层输出的局部特征输入所述通道交互单元，得到通道级动态权重，所述通道级动态权重输入所述局部窗口自注意力分支中对所述值线性层输出的值特征图进行自适应校正；所述局部窗口自注意力模块输出的全局特征输入所述空间交互单元，得到空间级动态权重，所述空间级动态权重输入所述深度卷积分支中对所述局部特征进行自适应校正。

5.根据权利要求4所述的基于混合特征交互Transformer的单帧图像超分辨率方法，其特征在于，所述混合特征交互自注意力单元的计算过程如下：

将输入所述混合特征交互自注意力单元的第一特征图输入所述第一深度卷积层，得到所述局部特征/>其中，/>表示实数多维空间，C、H、W分别表示所述第一特征图的通道数量、长度和宽度，/>表示形状为C×H×W的三维数据，窗口尺寸为S，其表达式如下：

F_local＝DwConv_3×3(X)；

其中，DwConv_3×3(·)表示第一深度卷积层的函数；

将所述局部特征F_local输入通道交互单元，获得通道级动态权重其表达式如下：

W_ca＝CI(F_local)；

其中，CI(·)表示通道交互单元的函数；

将所述第一特征图X分割为N个窗口尺寸为S×S的非重叠窗口其中N＝H×W/S²，/>表示形状为NS²×C的二维数据，分别通过所述查询线性层、键线性层、值线性层将所述非重叠窗口X_win分别转换为查询特征图/>键特征图/>和值特征图/>其表达式如下：

Q，K，V＝L_Q(X_win)，L_K(X_win)，L_V(X_win)；

其中，L_Q、L_K、L_V分别表示查询线性层、键线性层、值线性层的函数；

将所述值特征图V的数据格式由NS²×C转换为C×H×W并与所述通道级动态权重W_ca相乘，以对所述值特征图V进行自适应校正，随后再将数据格式还原为NS²×C，校正后的结果记作V′；

执行局部窗口自注意力模块的计算，以获得全局特征表达式如下：

其中，T表示转置矩阵，Softmax表示Softmax函数；

将所述全局特征F_global的数据格式由NS²×C转换为C×H×W，并输入所述空间交互单元，以获得空间级动态权重其表达式如下：

W_sa＝SI(F_global)；

其中，SI(·)表示空间交互单元的函数；

通过将所述空间级动态权重W_sa与全局特征F_local相乘，以对全局特征F_local进行自适应校正，其校正后的结果记作F_local；

最后，将所述全局特征F_local与F_local相加，以获得混合特征

6.根据权利要求2所述的基于混合特征交互Transformer的单帧图像超分辨率方法，其特征在于，所述混合尺度前馈神经网络包括第一分支、第二分支和第五卷积层，所述第一分支包括依次连接的第二深度卷积层、第一ReLU激活函数层、第三深度卷积层和第二ReLU激活函数层，所述第二分支包括依次连接的第四深度卷积层、第三ReLU激活函数层、第五深度卷积层和第四ReLU激活函数层，其中所述第二深度卷积层和第五深度卷积层的卷积核大小为7×7，所述第三深度卷积层和第四深度卷积层的卷积核大小为5×5，具体计算过程如下：

沿着通道维度将输入所述混合尺度前馈神经网络的第二特征图将X’切分为均等的两份，得到切分后的特征/>和/> 表示形状为的三维数据，将/>和/>分别输入所述第一分支和第二分支进行混合交叉特征提取，分别输出第一交叉特征和第二交叉特征，将所述第一交叉特征和第二交叉特征进行拼接后输入所述第五卷积层，所述第五卷积层的输出与所述第二特征图相加，得到混合尺度特征/>其表达式如下：

其中，ReLU(·)表示ReLU激活函数，DwConv_5×5(·)和DwConv_7×7(·)分别表示卷积核为5×5和7×7的深度卷积层的函数，Conv_1×1(·)表示卷积核大小为1×1的第五卷积层的函数，[·]表示拼接操作，分别表示第一特征和第二特征，/>分别表示第一交叉特征和第二交叉特征。

7.一种基于混合特征交互Transformer的单帧图像超分辨率装置，其特征在于，包括：

图像获取模块，被配置为获取待重建的低分辨率图像；

模型构建模块，被配置为构建基于混合特征交互Transformer的单帧图像超分辨率模型并训练，得到经训练的单帧图像超分辨率模型，所述单帧图像超分辨率模型包括依次连接的浅层特征提取单元、深层特征提取单元和上采样重建单元，所述深层特征提取单元包括依次连接的P个混合特征交互Transformer模块；

重建模块，被配置为将所述待重建的低分辨率图像输入所述经训练的单帧图像超分辨率模型，通过所述浅层特征提取单元提取浅层特征，将所述浅层特征输入所述深层特征提取单元提取得到深层特征，将所述深层特征输入所述上采样重建单元，重建得到高分辨率重建图像，所述浅层特征提取单元采用第六卷积层，所述浅层特征提取单元的计算过程如下：

F₀＝Conv_3×3(I_LR)；

F_i＝MFⁱ(F_i-1)，i∈[1，P]；

F_P0＝MF^P(…(MF²(MF¹(F₀))))+F₀；

I_SR＝Conv_3×3(f_up(F_P0))；

8.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。