CN114092339B

CN114092339B - 基于跨帧自注意力变换网络的时空视频超分辨率重建方法

Info

Publication number: CN114092339B
Application number: CN202210076937.1A
Authority: CN
Inventors: 隋修宝; 张文辉; 周明亮; 纪程; 周逸成
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-20
Anticipated expiration: 2042-01-24
Also published as: CN114092339A

Abstract

本发明公开了一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法，包括以下步骤：采集连续图片序列，将其进行双三次插值降采样，并删除偶数帧，构成训练集；构建基于跨帧自注意力变换的时空视频超分辨率重建网络；利用训练集对基于跨帧自注意力变换网络进行训练；将低分辨率低帧率的连续图片序列输入所述训练完成的基于跨帧自注意力变换网络，获得高帧率高分辨率的连续图片序列。本发明能够通过一个端对端的神经网络同时实现空间和时间尺度的超分辨率，有效提高了对时空特征信息的利用，能够产生高帧率高分辨率的视频超分辨率重建效果。

Description

基于跨帧自注意力变换网络的时空视频超分辨率重建方法

技术领域

本发明涉及计算机视觉技术领域，更具体的说是涉及一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法。

背景技术

超分辨率重建技术的目的是将低分辨率的图片重建成高分辨率的图片，是计算机视觉领域一个重要分支，该技术广泛应用于安防监控、医疗成像、视频转播、遥感等领域。视频超分辨率重建技术旨在通过提取当前帧和相邻帧的信息来对当前帧进行超分辨率重建。相较于单帧超分辨率重建技术，视频超分辨率重建技术在处理图像序列时的重建效果更为理想。

随着深度学习技术的发展，基于深度学习的视频超分辨率重建技术相较于传统方法往往能获得更深的特征信息。而这些信息具有时间和空间上的关联性，因此，通过端对端的网络实现时空视频超分辨率重建成为了可能。目前的时空超分辨率重建技术往往采用的是两阶段方式，即首先通过超分辨率重建技术对空间尺度进行超分重建，再通过插帧方式对之前的超分结果进行插帧实现时间尺度的超分辨率重建。这种两阶段的时空超分辨率重建方式都需要使用大量的计算资源，不利于现实中的应用场景。而且根据目前的算法发展，性能较好的算法多采用深度学习框架，而两阶段的时空超分辨重建方法往往需要对图片序列进行两次特征提取，这种操作造成了现有计算资源的浪费，而且会导致前后两种方法的特征语义不一致导致重建结果在某些场景出现一定模糊。

发明内容

本发明的目的在于提供一种于跨帧自注意力变换网络的时空视频超分辨率重建方法，采用端对端的时空视频超分辨率重建方法同时提高原视频序列的时间和空间分辨率。

实现本发明的技术解决方案为：一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法，包括以下步骤：

S1、采集连续图片序列作为原始图片序列，对其进行双三次插值降采样，并删除降采样后的序列的偶数帧，得到处理后的图片序列，处理后的图片序列与原始图片序列共同构成训练集。

S2、构建基于跨帧自注意力变换时空视频超分辨率重建网络，并对其进行训练，得到训练完成的基于跨帧自注意力变换网络，具体如下：

S21、采用3×3的二维卷积核分别对训练集中的每帧图片进行浅层特征提取，获得对应的浅层特征图

其中c代表经过二维卷积核处理后所得的特征图的通道数，t代表目前处理的帧序号。

S22、假设

和

为相邻的两帧浅层特征图，对

和

做可变形卷积操作，分别得到它们对应的偏置变量

和

设置可训练参数α和β，获得中间帧浅层特征图

S23、分别将浅层特征图

和

碎片化，并附着时序编码，对应得到处理后相邻三帧浅层特征图

和

的编码特征图V、Q和K，利用跨帧自注意力变换网络相邻编码特征图Q和K做自相关处理，得到最大似然矩阵T。并以最大似然矩阵T为索引，在编码特征图V中搜索，搜索过程中采用不同的相关步长，对应获得不同尺度相似矩阵记为Lv1、Lv2和Lv3。

S24、将当前帧对应的浅层特征图

通过残差块进行深层特征提取，并结合最大似然矩阵T和不同尺度的相似矩阵由粗到细地重建出当前帧图片。

S25、更新卷积和权重，重复S21-S24直至收敛，得到训练完成的基于跨帧自注意力变换网络。

S3、利用训练好的基于跨帧自注意力变换网络对低分辨率低帧率的连续图片序列进行处理，获得高帧率高分辨率的连续图片序列。

本发明与现有技术相比，其显著优点在于：

(1)本发明公开提供了一种基于跨帧自注意力变换网络的时空视频超分辨率方法，该方法能够通过一个端对端的神经网络同时实现空间和时间尺度的超分辨率，有效提高了对时空特征信息的利用，能够产生高帧率高质量的视频重建效果。

(2)引入了深度跨帧自注意力机制，对相邻帧的特征图进行了相关性的计算，搜索到了对当前帧特征图重建的最优相邻帧特征图区域；利用多尺度重建模块，能有效利用深度跨帧自注意力机制所搜索到的对当前帧特征图重建的最优相邻帧特征图区域，由粗到细地生成当前帧图片。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图作简单地介绍，显而易见地，下面描述的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明基于跨帧自注意力变换网络的时空视频超分辨率重建方法的流程图。

图2为本发明基于跨帧自注意力变换时空视频超分辨率重建网络的构建训练流程图。

图3为本发明提供的基于跨帧自注意力变换网络的时空视频超分辨率重建方法的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合本设计实例对具体实施方式、以及本次发明的技术难点、发明点进行进一步介绍。

结合图1、图2和图3，本发明公开了一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法，包括以下步骤：

为了进一步实施上述技术方案，S1中，采集连续图片序列作为原始图片序列，对其进行双三次插值降采样，并删除降采样后序列的偶数帧，得到处理后的图片序列，此时获得低分辨率低帧率和高分辨率高帧率的训练图片序列对，按照时间顺序，处理后的图片序列作为网络输入，原始图片序列作为网络输出。

S22、假设

和

为相邻的两帧浅层特征图，对

和

做可变形卷积操作，分别得到它们对应的偏置变量

和

设置可训练参数α和β，获得中间帧浅层特征图

具体如下：

S22-1、通过常规卷积得到每个卷积点的可学习的参数偏移量Δx₁、Δx₂：

其中g代表常规卷积操作。

S22-2、利用可变形卷积算出每个采样点的偏移变量：

其中，Dconv代表可变形卷积；采样点为浅层特征图中的特征像素点、

S22-3、通过设置可训练参数α和β获得相邻两帧图片中间帧的浅层特征图

需要说明的是，这里训练参数α和β实际为1×1，步长为1的二维卷积运算。

S23、分别将浅层特征图

和

和

的编码特征图V、Q和K，利用跨帧自注意力变换网络相邻编码特征图Q和K做自相关处理，得到最大似然矩阵T。并以最大似然矩阵T为索引，在编码特征图V中搜索，搜索过程中采用不同的相关步长，对应获得不同尺度相似矩阵记为Lv1、Lv2和Lv3，具体如下：

S23-1、将

和

碎片化并附着时序编码：

其中G代表碎片化和碎片的时序编码，V为

对应的编码特征图矩阵，Q为

对应的编码特征图矩阵，K为

对应的编码特征图矩阵。

S23-2、通过自注意力计算碎片的相关性t_i,j：

其中，(·)代表自相关运算，q_i,j为Q中的区域(i,j)的碎片，k_i,j为K中的区域(i,j)的碎片，t_i,j为最大似然矩阵T中区域(i,j)的相似性。

S23-3、以最大似然矩阵T为索引在相邻一帧的浅层特征图

中搜索，分别采用不同的相关步长，获得不同尺度相似矩阵Lv1、Lv2和Lv3：

其中L₁代表相关步长为1的特征索引搜索，L₂代表相关步长为2的特征索引搜索，L₄代表相关步长为4的特征索引搜索。

需要说明的是，在对特征图碎片化的过程中，特征图被碎片成16×16的尺寸大小，并附着余弦时序编码。为取得不同尺度的相似举证，分别采用1，2，4的步长，使其结果成2倍递增。

S24、将当前帧对应的浅层特征图

为了进一步实施上述技术方案，S24中，将当前帧对应的浅层特征图

通过残差块进行深层特征提取，并结合最大似然矩阵T和不同尺度的相似矩阵由粗到细地重建出当前帧图片I，具体如下：

F_Lv2＝f(f(F_Lv1)+Lv2)*T^↑

F_Lv3＝f(f(F_Lv2)+Lv3)*(T^↑)^↑

I＝F_Lv1+F_Lv2+F_Lv3

其中f代表残差块运算，↑代表上采样。

需要说明的是，上述上采样过程均采用双三次插值的方式进行，每次放大系数为2倍。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。