CN115631115B

CN115631115B - 基于递归Transformer的动态图像复原方法

Info

Publication number: CN115631115B
Application number: CN202211569108.3A
Authority: CN
Inventors: 赫然; 谭铁牛; 黄怀波; 周晓强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-03-28
Anticipated expiration: 2042-12-08
Also published as: CN115631115A

Abstract

本发明提供一种基于递归Transformer的动态图像复原方法，涉及图像处理技术领域，该方法包括：获取待处理的图像；对所述待处理的图像进行预处理，得到第一图像；将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。本发明提供的方法，通过图像复原模型实现了待处理的图像复原为高分辨率的目标图像，提升了图像复原的质量和效率。

Description

基于递归Transformer的动态图像复原方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于递归Transformer的动态图像复原方法。

背景技术

图像超分辨率是一种图像与图像之间的转换任务，目标是从低分辨率的图像中恢复出原始的高分辨率图像，图像超分辨率在安防监控、医学成像和目标检测等应用领域均有广泛应用。

近年来，随着转换器（Transformer）网络的提出，Transformer网络在自然语言处理和计算机视觉等领域均取得了重要的进展。相比于卷积神经网络，Transformer网络能够显式地建模全局的特征关系，并展现出更好的任务性能。

相关技术中，在图像复原领域，Transformer块（block）作为Transformer网络的基本组成单元，将若干个Transformer block串行堆叠构建Transformer网络的主架构。然而，若干个Transformer block串行堆叠，使得Transformer网络的参数数量较多，使得图像超分辨率方法面临复原结果模糊、结构变形的问题，从而使得图像复原的效率较低，图像复原的效果差。

发明内容

本发明提供一种基于递归Transformer的动态图像复原方法，用以解决现有技术中图像复原的效果差的缺陷，实现复原的图像分辨率高，复原的效果好。

本发明提供一种基于递归Transformer的动态图像复原方法，包括：

获取待处理的图像；

对所述待处理的图像进行预处理，得到第一图像；

将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。

根据本发明提供的一种基于递归Transformer的动态图像复原方法，所述图像复原模型包括：卷积编码器、递归转换器Transformer网络模块、卷积解码器和质量评价模块；

所述将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像，包括：

在当前阶段，将所述第一图像输入至所述卷积编码器，得到所述卷积编码器输出的第一特征图；

将所述第一特征图与第二特征图拼接之后的第三特征图输入至所述递归Transformer网络模块，得到所述递归Transformer网络模块输出的第四特征图；所述第二特征图是基于上一阶段的所述递归Transformer网络模块的输出确定的；

将所述第一特征图和所述第四特征图输入至所述卷积解码器，得到所述卷积解码器输出的第五特征图；

将所述第五特征图和上一阶段的所述卷积解码器输出的第六特征图输入至所述质量评价模块，得到所述质量评价模块输出的评价结果；所述评价结果用于指示当前阶段的所述第五特征图的质量是否高于上一阶段的所述第六特征图的质量；

基于所述评价结果，得到所述目标图像。

根据本发明提供的一种基于递归Transformer的动态图像复原方法，所述基于所述评价结果，得到所述目标图像，包括：

在当前阶段的所述第五特征图的质量高于上一阶段的所述第六特征图的质量的情况下，重复执行质量评价模块输出评价结果的步骤，直至当前阶段的所述第五特征图的质量不高于上一阶段的所述第六特征图；或者，

在当前阶段的所述第五特征图的质量不高于上一阶段的所述第六特征图的质量的情况下，将所述第六特征图作为所述目标图像。

根据本发明提供的一种基于递归Transformer的动态图像复原方法，所述递归Transformer网络模块包括：Transformer块和交叉注意力模块，所述将所述第一特征图与第二特征图拼接之后的第三特征图输入至所述递归Transformer网络模块，得到所述递归Transformer网络模块输出的第四特征图，包括：

将所述第三特征图输入至所述Transformer块，得到所述Transformer块输出的第七特征图；

将所述第七特征图、以及所述交叉注意力模块在历史阶段输出的第八特征图集合输入至所述交叉注意力模块，得到所述交叉注意力模块输出的第四特征图。

根据本发明提供的一种基于递归Transformer的动态图像复原方法，所述将所述第三特征图输入至所述Transformer块，得到所述Transformer块输出的第七特征图，包括：

采用滑动窗口划分的方式，将所述第三特征图变换为多个第一序列特征；

基于各所述第一序列特征，确定多个第二序列特征；所述第二序列特征用于表示上下文特征关系；

采用滑动窗口合并的方式将各所述第二序列特征进行合并，得到合并特征图；

基于所述合并特征图和所述第三特征图，确定第七特征图。

根据本发明提供的一种基于递归Transformer的动态图像复原方法，所述将所述第七特征图、以及所述交叉注意力模块在历史阶段输出的第八特征图集合输入至所述交叉注意力模块，得到所述交叉注意力模块输出的第四特征图，包括：

采用滑动窗口划分的方式，分别将所述第七特征图变换为多个第三序列特征，以及将所述第八特征图集合变换为多个第四序列特征；

基于各所述第三序列特征和各所述第四序列特征，确定多个第五序列特征；

采用滑动窗口合并的方式将各所述第五序列特征进行合并，得到第四特征图。

根据本发明提供的一种基于递归Transformer的动态图像复原方法，所述将所述第五特征图和上一阶段的所述卷积解码器输出的第六特征图输入至所述质量评价模块，得到所述质量评价模块输出的评价结果，包括：

将所述第五特征图和所述第六特征图进行拼接，得到拼接图；

基于拼接图，得到所述质量评价模块输出的评价结果。

本发明还提供一种基于递归Transformer的动态图像复原装置，包括：

获取模块，用于获取待处理的图像；

预处理模块，用于对所述待处理的图像进行预处理，得到第一图像；

复原模块，用于将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于递归Transformer的动态图像复原方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于递归Transformer的动态图像复原方法。

本发明提供的基于递归Transformer的动态图像复原方法，通过获取待处理的图像；对待处理的图像进行预处理，得到第一图像；将第一图像输入至图像复原模型，得到图像复原模型输出的目标图像；目标图像的分辨率高于所述待处理图像的分辨率，图像复原模型是基于样本第一图像和样本第一图像的标签数据进行训练得到的，用于对第一图像进行复原。通过图像复原模型实现了待处理的图像复原为高分辨率的目标图像，提升了图像复原的质量和效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于递归Transformer的动态图像复原方法的流程示意图；

图2是本发明提供的卷积解码器的结构示意图；

图3是本发明提供的多头注意力机制模块的示意图；

图4是本发明提供的交叉注意力模块的示意图；

图5是本发明提供质量评价模块的结构示意图；

图6是本发明提供的图像复原模型的结构示意图；

图7是本发明提供的基于递归Transformer的动态图像复原装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于更加清晰地理解本申请各实施例，首先对一些相关的名词进行如下介绍。

Transformer：提出于自然语言处理领域，用于处理输入输出均为序列数据的模型，完全依赖于自注意力机制，对输入输出的全局依赖关系进行建模。

自注意力机制：对输入的序列化特征经过三个不同线性变换，分别得到查询(Query)特征、键(Key)特征和值(Value)特征，再利用查询特征和键特征计算任意两个特征之间的相似度，构建注意力矩阵；根据注意力矩阵和值特征进行计算，得到经自注意力机制优化后的特征。

下面结合图1-图6描述本发明的基于递归Transformer的动态图像复原方法。

图1是本发明提供的基于递归Transformer的动态图像复原方法的流程示意图之一，如图1所示，该方法包括：步骤101-步骤103，其中，

步骤101，获取待处理的图像。

需要说明的是，本发明提供的基于递归Transformer的动态图像复原方法适用于低分辨率图像复原至高分辨率图像的场景中。该方法的执行主体可以为基于递归Transformer的动态图像复原装置，例如电子设备、或者该基于递归Transformer的动态图像复原装置中的用于执行基于递归Transformer的动态图像复原方法的控制模块。

具体地，通过手机、相机或者摄像机等设备拍摄的方式获取待处理的图像，也可以通过其他方式获取待处理的图像，待处理的图像的分辨率很低。

步骤102，对所述待处理的图像进行预处理，得到第一图像。

具体地，将获取的待处理的图像进行预处理，其中，预处理包括将待处理的图像对应的R、G和B通道的像素值进行均值归一化等操作，得到第一图像。

步骤103，将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。

具体地，将预处理之后的第一图像输入至图像复原模型，可以得到图像复原模型输出的目标图像；目标图像的分辨率高于待处理图像的分辨率，图像复原模型是基于样本第一图像和样本第一图像的标签数据进行训练得到的，用于对第一图像进行复原。

可选地，所述图像复原模型包括：卷积编码器、递归转换器Transformer网络模块、卷积解码器和质量评价模块；上述步骤103的具体实现方式包括以下步骤：

步骤1）在当前阶段，将所述第一图像输入至所述卷积编码器，得到所述卷积编码器输出的第一特征图。

具体地，卷积编码器用于将输入的第一图像转换为高维特征图。在当前阶段，将所述第一图像输入至卷积编码器，卷积编码器按照卷积层和非线性激活层的顺序对第一图像进行卷积，其中，卷积核的步长为1，卷积核大小为3，可以得到卷积编码器输出的第一特征图，第一特征图表示浅层图像特征。例如，输入的第一图像

，H表示第一图像的高度，W表示第一图像的宽度，经过卷积编码器卷积之后，可用得到浅层图像特征

， c表示通道数。

步骤2）将所述第一特征图与第二特征图拼接之后的第三特征图输入至所述递归Transformer网络模块，得到所述递归Transformer网络模块输出的第四特征图；所述第二特征图是基于上一阶段的所述递归Transformer网络模块的输出确定的。

具体地，递归Transformer网络模块用于将卷积编码器输出的第一特征图经过循环多次递归，提取深层次的图像特征。将上一阶段的递归Transformer网络模块输出的第二特征图和当前阶段卷积编码器输出的第一特征图进行拼接，得到拼接之后的第三特征图。

将第三特征图输入至递归Transformer网络模块，可以得到递归Transformer网络模块输出的第四特征图。

步骤3）将所述第一特征图和所述第四特征图输入至所述卷积解码器，得到所述卷积解码器输出的第五特征图。

具体地，卷积接码器用于根据卷积编码器输出的第一特征图和递归Transformer网络模块输出的第四特征图预测高分辨率图像。将卷积编码器输出的第一特征图和递归Transformer网络模块输出的第四特征图输入至卷积解码器，得到所述卷积解码器输出的第五特征图。

图2是本发明提供的卷积解码器的结构示意图，如图2所示，卷积解码器包括三个卷积层和一个上采样层，将卷积解码器中通过第一个卷积层得到的深层特征和通过输入端卷积编码器提取的第一特征图（浅层特征）进行相加，即采用跨层连接的方式，将得到的特征结果通过第二个卷积层进行卷积，再通过上采样层进行上采样，上采样的结果通过第三个卷积层进行卷积，从而实现解码。其中，具体解码过程可以采用公式（1）表示，其中：

其中，z₀表示卷积编码器输出的第一特征图，z表示递归Transformer网络模块输出的第四特征图，即卷积解码器的输入特征；

表示第一个卷积层，

表示第二个卷积层，

表示上采样层，

表示第三个卷积层。

步骤4）将所述第五特征图和上一阶段的所述卷积解码器输出的第六特征图输入至所述质量评价模块，得到所述质量评价模块输出的评价结果；所述评价结果用于指示当前阶段的所述第五特征图的质量是否高于上一阶段的所述第六特征图的质量。

具体地，质量评价模块用于预测判断输入的两张图像的相对质量；上一阶段为与当前阶段相邻的历史阶段。将卷积解码器输出的第五特征图和上一阶段的卷积解码器输出的第六特征图输入至质量评价模块，即质量评价模块的输入为两张图像，且分别来自两个相邻的阶段，质量评价模块用于判断哪个阶段的预测结果更好，筛选出较好的结果作为最终的图像复原模型的输出结果，从而可以得到质量评价模块输出的评价结果，评价结果用于指示当前阶段的第五特征图的质量是否高于上一阶段的第六特征图的质量。

步骤5）基于所述评价结果，得到所述目标图像。

具体地，根据质量评价模块输出的评价结果，可以得到最终图像复原模型输出的目标图像。

本发明提供的基于递归Transformer的动态图像复原方法，通过在递归的当前阶段，将第一图像输入至卷积编码器，得到卷积编码器输出的第一特征图；将第一特征图与第二特征图拼接之后的第三特征图输入至递归Transformer网络模块，得到递归Transformer网络模块输出的第四特征图；第二特征图是基于上一阶段的递归Transformer网络模块的输出确定的；将第一特征图和第四特征图输入至卷积解码器，得到卷积解码器输出的第五特征图；将第五特征图和上一阶段的卷积解码器输出的第六特征图输入至质量评价模块，得到质量评价模块输出的评价结果；评价结果用于指示当前阶段的第五特征图的质量是否高于上一阶段的第六特征图的质量；再根据质量评价模块输出的评价结果，得到目标图像，通过递归Transformer网络模块可以在只利用少量模型参数量的情况下，提取深层有效的图像特征，实现了待处理的图像复原为高分辨率的目标图像，提升了图像复原的质量和效率，极大的减小了深度模型的大小，有助于部署到边缘计算、便携式终端设备等对于模型大小有严苛要求的工业场景中。

可选地，上述步骤5）的具体实现过程为：

在当前阶段的所述第五特征图的质量高于上一阶段的所述第六特征图的质量的情况下，重复执行质量评价模块输出评价结果的步骤，直至当前阶段的所述第五特征图的质量不高于上一阶段的所述第六特征图；或者，在当前阶段的所述第五特征图的质量不高于上一阶段的所述第六特征图的质量的情况下，将所述第六特征图作为所述目标图像。

具体地，在质量评价模块判断的当前阶段的第五特征图的质量高于上一阶段的第六特征图的质量的情况下，质量评价模块输出的评价结果为1，此时再将待处理的图像输入至卷积编码器，得到卷积编码器输出的第一特征图；将第一特征图与第二特征图拼接之后的第三特征图输入至递归Transformer网络模块，得到递归Transformer网络模块输出的第四特征图；将第一特征图和第四特征图输入至卷积解码器，得到卷积解码器输出的第五特征图；将第五特征图和上一阶段的卷积解码器输出的第六特征图输入至质量评价模块，得到质量评价模块输出的评价结果，即重复执行质量评价模块输出评价结果的步骤，直至当前阶段的第五特征图的质量不高于上一阶段的第六特征图。或者，在质量评价模块判断的当前阶段的第五特征图的质量不高于上一阶段的第六特征图的质量的情况下，质量评价模块输出的评价结果为0，此时递归结束，并将第六特征图作为目标图像。

可选地，所述递归Transformer网络模块包括：Transformer块和交叉注意力模块，上述步骤2）的具体实现过程包括以下步骤：

a）将所述第三特征图输入至所述Transformer块，得到所述Transformer块输出的第七特征图。

具体地，将卷积编码器输出的第三特图输入至Transformer块（Block），可以得到Transformer块输出的第七特征图。

b）将所述第七特征图、以及所述交叉注意力模块在历史阶段输出的第八特征图集合输入至所述交叉注意力模块，得到所述交叉注意力模块输出的第四特征图。

具体地，由于递归是重复执行的过程，将交叉注意力模块在每一阶段的输出结果进行保存，可以组成交叉注意力模块在历史阶段输出的第八特征图集合，采用

，其中，t表示当前阶段，

表示历史阶段，z表示交叉注意力模块在

阶段分别输出的第八特征图。

进一步地，将Transformer块输出的第七特征图、以及交叉注意力模块在历史阶段输出的第八特征图集合输入至交叉注意力模块，可以得到交叉注意力模块输出的第四特征图。

本发明提供的基于递归Transformer的动态图像复原方法，通过将第三特征图输入至Transformer块，得到Transformer块输出的第七特征图，将第七特征图、以及交叉注意力模块在历史阶段输出的第八特征图集合输入至交叉注意力模块，得到交叉注意力模块输出的第四特征图，利用Transformer块的参数共享机制以及交叉注意力模块进行特征传递，交叉注意力模块计算不同位置特征间的相似度，并根据相似度得分进行加权融合，实现不同位置的图像特征之间的信息交互，从而提升了图像复原的质量和效率。

可选地，所述将所述第三特征图输入至所述Transformer块，得到所述Transformer块输出的第七特征图，包括：

1）采用滑动窗口划分的方式，将所述第三特征图变换为多个第一序列特征。

具体地，采用滑动窗口划分的方式，将第三特征图变换为多个第一序列特征，例如，将第三特征图

变换为

，其中，n₀为互动窗口的大小，n_w表示第一序列特征的数量。

2）基于各所述第一序列特征，确定多个第二序列特征；所述第二序列特征用于表示上下文特征关系。

具体地，根据多个第一序列特征，将每一个第一序列特征通过归一化层、多头注意力机制模块的计算，可以得到形状相同的建模了上下文特征关系的多个第二序列特征，即第二序列特征用于表示上下文特征关系。

图3是本发明提供的多头注意力机制模块的示意图，如图3所示，针对每个第一特征序列，将第一特征序列经过归一化层之后得到的序列特征f_LN（尺寸为n_w×n₀×c）分别通过查询函数、键函数和值函数，得到查询函数输出的序列特征（尺寸为n_w×n₀×c）、键函数输出的序列特征（尺寸为n_w×n₀×c）和值函数输出的序列特征（尺寸为n_w×n₀×c），将查询函数输出的序列特征和键函数输出的序列特征相乘之后经过归一化（softmax）函数处理，将softmax函数处理之后的序列特征和值函数输出的序列特征相乘，得到第二序列特征（尺寸为n_w×n₀×c）。

3）采用滑动窗口合并的方式将各所述第二序列特征进行合并，得到合并特征图。

具体地，采用滑动窗口合并的方式将多个第二序列特征进行合并，即将多个第二序列特征还原至第一特征图的大小，从而得到合并特征图。

4）基于所述合并特征图和所述第三特征图，确定第七特征图。

具体地，Transformer块的输入和输出采用残差连接，将得到的合并特征图和输入的第三特征图相加，可以得到第七特征图。其中，Transformer块的具体实现过程采用公式（2）表示，其中：

其中，f_TB表示Transformer块，z表示第三特征图，A表示层滑动窗口划分的过程，B表示滑动窗口合并的过程，f_LN表示归一化层，f_MSA表示多头注意力机制模块。

可选地，所述将所述第七特征图、以及所述交叉注意力模块在历史阶段输出的第八特征图集合输入至所述交叉注意力模块，得到所述交叉注意力模块输出的第四特征图，包括：

a）采用滑动窗口划分的方式，分别将所述第七特征图变换为多个第三序列特征，以及将所述第八特征图集合变换为多个第四序列特征。

具体地，采用滑动窗口划分的方式，可以分别将第七特征图变换为多个第三序列特征，以及将第八特征图集合变换为多个第四序列特征。

图4是本发明提供的交叉注意力模块的示意图，如图4所示，采用滑动窗口划分的方式，可以分别将Transformer块输出的第七特征图变换为多个第三序列特征，以及将第八特征图集合中每一个第八特征图变换为多个第四序列特征。例如，第七特征图

，变换为多个第三序列特征

，其中，n₀为滑动窗口的大小，n_w表示第三序列特征的数量；第八特征图集合

，通过滑动窗口划分的方式，变换为多个第四序列特征组成的集合

，其中，n₀为滑动窗口的大小，n_w表示单个历史阶段的第三序列特征的数量，共包括（t-1）个历史阶段。

b）基于各所述第三序列特征和各所述第四序列特征，确定多个第五序列特征。

具体地，根据得到的多个第三序列特征和多个第四序列特征通过归一化层，再通过多头注意力机制的计算，得到建模了当前阶段与历史阶段的特征关系的多个第五序列特征。

如图4所示，将多个第三序列特征经过归一化层之后的多个第一归一化序列特征分别通过查询函数，查询函数对多个归一化序列特征进行线性变换，得到线性变换之后的序列特征；将多个第四序列特征经过归一化层之后的多个第二归一化序列特征分别通过键函数和值函数，得到键函数输出的序列特征和值函数输出的序列特征；将查询函数输出的序列特征和键函数输出的序列特征相乘之后，再经过softmax函数进行归一化处理，得到归一化处理之后的序列特征；将归一化处理之后的序列特征和值函数输出的序列特征相乘，得到相乘之后的序列特征，从而得到多个第五序列特征。

c）采用滑动窗口合并的方式将各所述第五序列特征进行合并，得到第四特征图。

具体地，如图4所示采用滑动窗口合并的方式将多个第五序列特征进行合并，将多个第五序列特征还原至与输入的第七特征图相同的大小。交叉注意力模块的实现过程可以采用公式（3）表示，其中：

其中，z_t表示当前阶段的经过归一化层之后的第一归一化序列特征，t表示当前阶段，Z_t表示历史阶段经过归一化层之后的第二归一化序列特征，Z_t包括

，

表示softmax函数，Q表示查询函数，K表示键函数，V表示值函数，c表示序列特征的维度，f_TAN表示交叉注意力模块输出的第四特征图。

可选地，所述将所述第五特征图和上一阶段的所述卷积解码器输出的第六特征图输入至所述质量评价模块，得到所述质量评价模块输出的评价结果，包括：

将所述第五特征图和所述第六特征图进行拼接，得到拼接图；基于拼接图，得到所述质量评价模块输出的评价结果。

图5是本发明提供质量评价模块的结构示意图，如图5所示，质量评价模块包括拼接层、三个卷积层、两个逆残差卷积层、一个池化层和一个线性层；其中，将当前阶段的卷积解码器输出的第五特征图Y_t和上一阶段的卷积解码器输出的第六特征图Y_t-1输入至拼接层501，拼接层501对第五特征图和第六特征图进行拼接，得到拼接图；再将拼接图输入至第一个卷积层502进行卷积，得到第一卷积结果；将第一卷积结果输入至第一个逆残差卷积层503，得到第一个逆残差卷积层输出的第一逆残差结果；将第一逆残差结果输入至第二个卷积层504进行卷积，得到第二卷积结果；将第二卷积结果输入至第二个逆残差卷积层505，得到第二个逆残差卷积层505输出的第二逆残差结果；将第二逆残差结果至第三个卷积层506进行卷积，得到第三卷积结果；将第三卷积结果输入至池化层507，得到池化层507输出的池化结果；将池化结果输入至线性层508，得到线性层508输出的评价结果。

图6是本发明提供的图像复原模型的结构示意图，如图6所示，图像复原模型包括卷积编码器、递归Transformer网络模块、卷积解码器和质量评价模块，递归Transformer网络模块包括Transformer块和交叉注意力模块，图像复原模型是一个递归的过程，循环往复执行T个阶段。以递归的第二阶段为例，对图像复原过程进行详细说明。

如图6所示，在递归的第二阶段，将经过预处理之后的第一图像X_LR输入至卷积编码器，得到卷积编码器输出的第一特征图；将第一特征图与第二特征图拼接之后的第三特征图输入至Transformer块，得到Transformer块输出的第七特征图，将第七特征图、以及交叉注意力模块在第一阶段输出的第八特征图集合输入至交叉注意力模块，得到交叉注意力模块输出的第四特征图，将卷积编码器输出的第一特征图和交叉注意力模块输出的第四特征图输入至卷积解码器，得到卷积解码器输出的第五特征图；再将卷积解码器输出的第五特征图Y₂和第一阶段的卷积解码器输出的第六特征图Y₁输入至质量评价模块，得到质量评价模块输出的评价结果；在评价结果为1时，进入下一递归阶段，重复执行上述步骤，直至下一阶段的第五特征图的质量不高于上一阶段的第六特征图；在评价结果为0时，表明第二阶段的第五特征图Y₂的质量不高于第一阶段的第六特征图Y₁的质量，此时将第二阶段解码器输出的第六特征图作为最终的目标图像。

需要说明的是，在递归的第一阶段，交叉注意力模块在历史阶段输出的第八特征图集合为空，此时，交叉注意力模块的输入和输出相同。

进一步地，在递归的每一个阶段，递归Transformer网络模块包括Transformer块和交叉注意力模块，图像复原模型复原的过程包含多个阶段，每一个阶段的交叉注意力模块的输出作为下一个阶段Transformer块的输入，以及将交叉注意力模块的输出输入至下一个阶段的交叉注意力模块，循环往复多次。因此，递归Transformer网络模块的具体实现过程可以采用公式（4）表示，其中：

其中，

，

表示交叉注意力模块，

表示 Transformer Block。

需要说明的是，在图像复原模型训练的过程中，对于递归Transformer网络模块，采用逐像素回归损失函数监督图像复原模型的预测过程，图像复原模型输出的图像Y_t在像素空间上接近于真实图像Y，其中，逐像素回归损失函数采用公式（5）表示，其中：

其中，

表示逐像素回归损失函数计算的损失值，

表示图像复原模型输出的图像。

对于质量评价模块，我们采用二分类损失函数监督质量评价模块对于高低质量分类的过程，二分类问题的损失函数采用公式（6）表示，其中：

其中，

表示二分类损失函数计算的损失值，

表示质量评价模块评价输入的当前阶段的特征图质量较好的概率，

表示超参数。

进一步地，图像复原模型对应的损失函数L采用公式（7）表示，其中：

本发明提供的基于递归Transformer的动态图像复原方法，利用TransformerBlock的参数共享机制，采用动态递归的递归Transformer网络模块实现超分辨率图像的复原，递归Transformer网络模块可以在只利用少量模型参数量的情况下，提取深层有效的图像特征，极大的减小了深度模型的大小，有助于部署到边缘计算、便携式终端设备等对于模型大小有严苛要求的工业场景中；同时，采用具有相对质量评价的质量评价模块，可以动态调整递归Transformer网络模块的阶段数量，针对不同的低分辨率图像动态分配计算资源，进一步提高了图像复原模型的超分辨率图像的复原结果，并将绝对的图像质量评价转化为了两张图像的相对质量评价，加快了模型训练的速度。

下面对本发明提供的基于递归Transformer的动态图像复原装置进行描述，下文描述的基于递归Transformer的动态图像复原装置与上文描述的基于递归Transformer的动态图像复原方法可相互对应参照。

图7是本发明提供的基于递归Transformer的动态图像复原装置的结构示意图，如图7所示，基于递归Transformer的动态图像复原装置700包括：获取模块701、预处理模块702和复原模块703，其中，

获取模块701，用于获取待处理的图像；

预处理模块702，用于对所述待处理的图像进行预处理，得到第一图像；

复原模块703，用于将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。

本发明提供的基于递归Transformer的动态图像复原装置，通过获取待处理的图像；对待处理的图像进行预处理，得到第一图像；将第一图像输入至图像复原模型，得到图像复原模型输出的目标图像；目标图像的分辨率高于所述待处理图像的分辨率，图像复原模型是基于样本第一图像和样本第一图像的标签数据进行训练得到的，用于对第一图像进行复原。通过图像复原模型实现了待处理的图像复原为高分辨率的目标图像，提升了图像复原的质量和效率。

可选地，所述图像复原模型包括：卷积编码器、递归转换器Transformer网络模块、卷积解码器和质量评价模块；

所述复原模块703，具体用于：

基于所述评价结果，得到所述目标图像。

可选地，所述复原模块703，具体用于：

可选地，所述递归Transformer网络模块包括：Transformer块和交叉注意力模块；所述复原模块703，具体用于：

可选地，所述复原模块703，具体用于：

基于所述合并特征图和所述第三特征图，确定第七特征图。

可选地，所述复原模块703，具体用于：

基于拼接图，得到所述质量评价模块输出的评价结果。

图8是本发明提供的一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行基于递归Transformer的动态图像复原方法，该方法包括：获取待处理的图像；对所述待处理的图像进行预处理，得到第一图像；将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于递归Transformer的动态图像复原方法，该方法包括：获取待处理的图像；对所述待处理的图像进行预处理，得到第一图像；将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于递归Transformer的动态图像复原方法，该方法包括：获取待处理的图像；对所述待处理的图像进行预处理，得到第一图像；将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于递归Transformer的动态图像复原方法，其特征在于，包括：

获取待处理的图像；

对所述待处理的图像进行预处理，得到第一图像；

将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原；

所述图像复原模型包括：卷积编码器、递归转换器Transformer网络模块、卷积解码器和质量评价模块；

基于所述评价结果，得到所述目标图像。

2.根据权利要求1所述的基于递归Transformer的动态图像复原方法，其特征在于，所述基于所述评价结果，得到所述目标图像，包括：

3.根据权利要求1所述的基于递归Transformer的动态图像复原方法，其特征在于，所述递归Transformer网络模块包括：Transformer块和交叉注意力模块；所述将所述第一特征图与第二特征图拼接之后的第三特征图输入至所述递归Transformer网络模块，得到所述递归Transformer网络模块输出的第四特征图，包括：

4.根据权利要求3所述的基于递归Transformer的动态图像复原方法，其特征在于，所述将所述第三特征图输入至所述Transformer块，得到所述Transformer块输出的第七特征图，包括：

基于所述合并特征图和所述第三特征图，确定第七特征图。

5.根据权利要求3所述的基于递归Transformer的动态图像复原方法，其特征在于，所述将所述第七特征图、以及所述交叉注意力模块在历史阶段输出的第八特征图集合输入至所述交叉注意力模块，得到所述交叉注意力模块输出的第四特征图，包括：

6.根据权利要求1所述的基于递归Transformer的动态图像复原方法，其特征在于，所述将所述第五特征图和上一阶段的所述卷积解码器输出的第六特征图输入至所述质量评价模块，得到所述质量评价模块输出的评价结果，包括：

基于拼接图，得到所述质量评价模块输出的评价结果。

7.一种基于递归Transformer的动态图像复原装置，其特征在于，包括：

获取模块，用于获取待处理的图像；

复原模块，用于将所述第一图像输入至图像复原模型，得到所述图像复原模型输出的目标图像；所述目标图像的分辨率高于所述待处理图像的分辨率，所述图像复原模型是基于样本第一图像和所述样本第一图像的标签数据进行训练得到的，用于对所述第一图像进行复原；

所述图像复原模型包括：卷积编码器、递归转换器Transformer网络模块、卷积解码器和质量评价模块；所述复原模块，具体用于：

基于所述评价结果，得到所述目标图像。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于递归Transformer的动态图像复原方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于递归Transformer的动态图像复原方法。