CN115660984A

CN115660984A - 一种图像高清还原方法、装置及存储介质

Info

Publication number: CN115660984A
Application number: CN202211310311.9A
Authority: CN
Inventors: 钟宝江; 宋子江
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-01-31

Abstract

本发明涉及深度学习技术领域，尤其是指一种图像高清还原方法、装置及计算机存储介质。本发明所述的图像高清还原方法，提出并设计了多级多结构注意力，多结构注意力包括现有的窗口注意力、移动窗口注意力和新引入的全局注意力操作，新引入的全局注意力操作把图像通过水平和垂直两个方向进行方向解耦，然后以很低代价计算出全局的注意力依赖关系，三种注意力的自计算和结合计算使得神经网络可以同时弥补对于局部和全局的注意力的缺陷，对现存的注意力机制进行更好的性能补偿，并且其最突出的全局注意力模块拥有非常好的性能和非常低的复杂度，完美的解决了目前注意力结构遇到的高复杂度的问题，使得计算效率大大提升。

Description

一种图像高清还原方法、装置及存储介质

技术领域

本发明涉及深度学习技术领域，尤其是指一种图像高清还原方法、装置及计算机存储介质。

背景技术

现有的技术中，对于一张给定的图片,注意力机制聚焦于为每一个像素获取依赖关系。目前已经被证实的是，在神经网络中使用注意力机制可以在各式视觉图像处理任务中带来更优异的效果。但是注意力所带来的性能往往和计算量高度相关，目前大多数工作都更倾向于使用局部注意力以求降低注意力的计算量。相对应的，采用这种方式会极大的削弱注意力机制从全图获取信息的能力。

随着科学理论和技术的发展，众多视觉任务已经充分验证了深度学习以及注意力机制的有效性。但是考虑到上述的计算量的问题，目前计算机视觉领域中主要分为两种方案：一种是以ViT为代表的区块像素融合机制，将边长为16像素的像素块作为一个token，从而进行整幅图像的融合，并且提取长距离的依赖关系；另一种是以Swin为代表的进行局部注意力操作并通过非重叠窗口叠加移动来逼近全局依赖关系的方法。但是这两种方法都存在自己的问题，ViT虽然可以捕获全局信息，但是同时也丢失了不少信息。而Swin随便进行了精确捕获，但是仅仅捕获了局部关系，并且严重丢失长距离关系。所以目前在深度学习领域，没有一种可以弥补各流行方法缺点的集大成者，这个问题已经严重阻碍了这一领域的发展。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中难以同时捕获全局和局部的注意力依赖关系的问题。

为解决上述技术问题，本发明提供了一种图像高清还原方法，包括：

对待还原的低分辨率图像通过卷积进行初步特征提取，得到第一特征图；

将所述第一特征图进行多次多尺度的多结构注意力操作，得到目标特征图，其中，第i次多结构注意力操作为：

对第i-1次多结构注意力操作输出的特征图进行shift-conv操作，并在通过GELU激活函数后，再次进行shift-conv操作，然后与所述第i-1次多结构注意力操作输出的特征图进行残差连接，将最终输出的特征图在通道维度上分为三个部分，分别进行窗口注意力操作、移动窗口注意力操作和全局注意力操作，最后将得到的三个输出进行通道相加得到第i次多结构注意力操作输出，其中，所述全局注意力操作为：

将第三通道特征进行水平信息提取的结果和将第三通道特征进行水平信息提取再进行垂直信息提取的结果以及将第三通道特征进行垂直信息提取的结果点积，得到全局注意特征；

将所述目标特征图与所述第一特征图进行残差连接后上采样，再通过卷积进行最终的信息提取，并进行分辨率放大操作，得到还原后的高分辨率图像。

优选地，对所述待还原的低分辨率图像X通过3×3卷积进行初步特征提取，得到第一特征图F₀＝Conv_3×3(X)。

优选地，所述多次多尺度的多结构注意力操作以三个互质的窗口尺寸顺序循环执行。

优选地，所述全局注意力操作的具体公式为：

其中，

为所述第三通道特征，θ()和g()代表了两个卷积操作，R_h()和R_v()分别代表了水平和垂直的结构变化，f()代表了softmax操作，T为转置操作。

优选地，所述窗口注意力操作将图像分成多个小的窗口，然后对每一个窗口进行传统的注意力计算，具体计算公式为：

其中，

为第一通道特征，R_w()代表了窗口划分操作，θ()和g()代表了两个卷积操作，f()代表了softmax操作，T为转置操作。

优选地，所述移动窗口注意力操作先对图像进行一个窗口移动，再将图像分成多个小的窗口，然后对每一个窗口进行传统的注意力计算，具体计算公式为：

其中，

为第二通道特征，R_w()代表了窗口划分操作，θ()和g()代表了两个卷积操作，f()代表了softmax操作，S()和US()代表了窗口移动和反窗口移动操作，T为转置操作。

优选地，将所述目标特征图F_K与所述第一特征图F₀进行残差连接后上采样，再通过3×3卷积进行最终的信息提取，并通过pixel shuffle进行分辨率的放大功能，得到还原后的高分辨率图像Y＝PS(Conv_3×3(U(F₀+F_K)))

其中，U()为上采用操作，PS()为pixel shuffle操作。

本发明还提供了一种图像高清还原装置，包括：

初步特征提取模块，用于对待还原的低分辨率图像通过卷积进行初步特征提取，得到第一特征图；

多尺度多结构注意力操作模块，用于将所述第一特征图进行多次多尺度的多结构注意力操作，得到目标特征图，其中，第i次多结构注意力操作为：

图像还原模块，用于将所述目标特征图与所述第一特征图进行残差连接后上采样，再通过卷积进行最终的信息提取，并进行分辨率放大操作，得到还原后的高分辨率图像。

优选地，所述图像高清还原装置应用于图像放大，旧照片高清化，视频增强服务。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种图像高清还原方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的图像高清还原方法，提出并设计了多级多结构注意力，多结构注意力包括现有的窗口注意力、移动窗口注意力和新引入的全局注意力操作，新引入的全局注意力操作把图像通过水平和垂直两个方向进行方向解耦，然后以很低代价计算出全局的注意力依赖关系，三种注意力的自计算和结合计算使得神经网络可以同时弥补对于局部和全局的注意力的缺陷，对现存的注意力机制进行更好的性能补偿，并且其最突出的全局注意力模块拥有非常好的性能和非常低的复杂度，完美的解决了目前注意力结构遇到的高复杂度的问题，使得计算效率大大提升。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明一种图像高清还原方法的实现流程图；

图2为本发明提供的图像高清还原网络的结构图；

图3为本发明一种实施例所提供的多次多尺度的多结构注意力的实现流程图；

图4为本发明多结构注意力的结构图；

图5为本发明实施例提供的一种图像高清还原装置的结构框图。

具体实施方式

本发明的核心是提供一种图像高清还原方法、装置及计算机存储介质，可以同时捕获全局和局部的注意力依赖关系，提升了性能。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，图1为本发明所提供的一种图像高清还原方法的实现流程图,图2为本发明提供的图像高清还原网络的结构图；具体操作步骤如下：

S101:对待还原的低分辨率图像通过卷积进行初步特征提取，得到第一特征图；

所述待还原的低分辨率图像X通过3×3卷积进行初步特征提取，将输入的3通道图像扩充到64通道，使原先的RGB三通道信息变成神经网络所需要的特征通道信息，得到第一特征图F₀＝Conv_3×3(X)。

S102:将所述第一特征图进行多次多尺度的多结构注意力操作，得到目标特征图，

本发明采用了多尺度窗口大小来探测不同的物体大小，并且未采用常规的2的幂次，因为2的幂次的感受野，在计算复杂度相同的情况下不如互质窗口尺寸；所述多次多尺度的多结构注意力操作以三个互质的窗口尺寸顺序循环执行，没有公约数的数称为互质，窗口选择互质的数字，就称为互质的窗口尺寸；

如图3所示：

在一种实施例中，将所述30×30的第一特征图进行24次多尺度的多结构注意力操作，针对每一个多级注意力模块，会根据执行顺序划分为5×5，10×10，15×15中的某一个尺寸，如果是4，8，16的窗口，那么感受野就是16。如果窗口大小为5，7，9，那么感受野就是315。但是神经网络的输入图片大小为30×30，所以本实施例采用的窗口大小为5，10，15。这样感受野就是30，正好和输入图像一样大，就可以最大化的利用感受野信息；

其中，如图4所示，第i次多结构注意力操作为：

对第i-1次多结构注意力操作输出的特征图进行shift-conv操作预提取并融合特征，作用是在不增加过多参数的情况下，进一步提取特征信息，并在通过GELU激活函数后，再次进行shift-conv操作，然后与所述第i-1次多结构注意力操作输出的特征图进行残差连接，将最终输出的特征图在通道维度上分为三个部分，分别进行窗口注意力操作、移动窗口注意力操作和全局注意力操作，在三个部分中分别提取了局部精细依赖关系，半全局递进依赖关系和全局定位的依赖关系，最后将得到的三个输出进行通道相加得到第i次多结构注意力操作输出，其中，所述全局注意力操作为：

S103:将所述目标特征图与所述第一特征图进行残差连接后上采样，再通过卷积进行最终的信息提取，并进行分辨率放大操作，得到还原后的高分辨率图像。

将所述目标特征图F_K与所述第一特征图F₀进行残差连接后上采样，再通过3×3卷积进行最终的信息提取，并通过pixel shuffle进行分辨率的放大功能，得到还原后的高分辨率图像Y＝PS(Conv_3×3(U(F₀+F_K)))

其中，U()为上采用操作，PS()为pixel shuffle操作。

基于以上实施例，对上述步骤S102进行进一步描述：

所述全局注意力操作的具体公式为：

其中，

所述窗口注意力操作将图像分成多个小的窗口，然后对每一个窗口进行传统的注意力计算，具体计算公式为：

其中，

所述移动窗口注意力操作先对图像进行一个窗口移动，再将图像分成多个小的窗口，然后对每一个窗口进行传统的注意力计算，以保证后续窗口划分的结果和窗口注意力不一样，便于将信息传递到全图，具体计算公式为：

其中，

本发明是应用在计算机视觉图像重建下low level的单图像超分辨率任务下的基于神经网络的注意力机制模型。能够针对现存的注意力机制进行更好的性能补偿。同时计算效率也有小幅度的提升。解决了注意力机制无法同时捕获长距离和短距离依赖的问题，使得性能有了一个很大的提升。相信在未来，该专利可以在更多的领域取得更好的效果。

请参考图5，图5为本发明实施例提供的一种图像高清还原装置的结构框图；具体装置可以包括：

初步特征提取模块100，用于对待还原的低分辨率图像通过卷积进行初步特征提取，得到第一特征图；

多尺度多结构注意力操作模块200，用于将所述第一特征图进行多次多尺度的多结构注意力操作，得到目标特征图，其中，第i次多结构注意力操作为：

图像还原模块300，用于将所述目标特征图与所述第一特征图进行残差连接后上采样，再通过卷积进行最终的信息提取，并进行分辨率放大操作，得到还原后的高分辨率图像。

本实施例的图像高清还原装置用于实现前述的图像高清还原方法，因此图像高清还原装置中的具体实施方式可见前文图像高清还原方法的实施例部分，例如，初步特征提取模块100，多尺度多结构注意力操作模块200，图像还原模块300，分别用于实现上述图像高清还原方法中步骤S101，S102，S103，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种图像高清还原方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种图像高清还原方法，其特征在于，包括：

2.根据权利要求1所述的图像高清还原方法，其特征在于，对所述待还原的低分辨率图像X通过3×3卷积进行初步特征提取，得到第一特征图F₀＝Conv_3×3(X)。

3.根据权利要求1所述的图像高清还原方法，其特征在于，所述多次多尺度的多结构注意力操作以三个互质的窗口尺寸顺序循环执行。

4.根据权利要求1所述的图像高清还原方法，其特征在于，所述全局注意力操作的具体公式为：

其中，

5.根据权利要求1所述的图像高清还原方法，其特征在于，所述窗口注意力操作将图像分成多个小的窗口，然后对每一个窗口进行传统的注意力计算，具体计算公式为：

其中，

6.根据权利要求1所述的图像高清还原方法，其特征在于，所述移动窗口注意力操作先对图像进行一个窗口移动，再将图像分成多个小的窗口，然后对每一个窗口进行传统的注意力计算，具体计算公式为：

其中，

7.根据权利要求1所述的图像高清还原方法，其特征在于，将所述目标特征图F_K与所述第一特征图F₀进行残差连接后上采样，再通过3×3卷积进行最终的信息提取，并通过pixelshuffle进行分辨率的放大功能，得到还原后的高分辨率图像Y＝PS(Conv_3×3(U(F₀+F_K)))

其中，U()为上采用操作，PS()为pixel shuffle操作。

8.一种图像高清还原装置，其特征在于，包括：

9.根据权利要求8所述的图像高清还原装置，其特征在于，应用于图像放大，旧照片高清化，视频增强服务。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种图像高清还原方法的步骤。