CN114757828A

CN114757828A - 基于Transformer的视频时空超分辨率方法

Info

Publication number: CN114757828A
Application number: CN202210346886.XA
Authority: CN
Inventors: 邢晓芬; 曹俏钰; 徐向民; 郭锴凌
Original assignee: South China University of Technology SCUT; Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-15

Abstract

本发明公开了基于Transformer的视频时空超分辨率方法。所述方法包括以下步骤：采集视频时空超分辨率的模型训练样本；构建高帧率低分辨率视频序列生成模型，基于Transformer注意力机制的时域特征融合的生成中间帧，生成高帧率低分辨率视频序列；构建高帧率高分辨率视频序列生成模型，基于Transformer注意力机制的时空域特征融合，重建高帧率高分辨率视频序列；构建基于Transformer的视频时空超分辨率模型并训练，根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。本发明结合了Transformer注意力机制获取了视频序列中的时空联系，实现了视频在时空上的超分辨率增强。

Description

基于Transformer的视频时空超分辨率方法

技术领域

本发明属于视频时空超分辨率增强领域，涉及基于Transformer的视频时空超分辨率方法。

背景技术

视频超分辨率增强是指利用相同动态场景下的多帧低分辨率的视频序列，重构高帧率高分辨率的视频序列。包括两个方面：时序上的增量超分辨和空间上的视频超分辨率。近年来深度学习算法技术的发展使得时序上的增量超分辨技术和空间上的视频超分辨率技术得到很大的改进，如公布号为CN111654746B的专利申请公开的一种视频的插帧方法、装置、电子设备和存储介质；和公布号为CN112365403A的专利申请公开的一种基于深度学习和相邻帧的视频超分辨率恢复方法。但是传统的深度学习方法很少可以同时完成时空上的超分辨率。

在视频时空超分辨领域中，有一些研究者尝试基于光流的方法。但是基于光流的方法通常以预设的时空关系建模相邻视频帧的联系，无法适应多种多样的运动情况，最终生成的序列容易产生抖动的视觉现象。如公开号为CN113034380A的专利申请公开的一种基于改进可变形卷积校正的视频时空超分辨率方法和装置。实际上，视频的数据在空间和时间上是具有关联的，研究融合时空特征的视频时空超分辨率技术可以获取视频中更多的信息，进而提高视频时空超分辨率的效果。

发明内容

为了解决上述技术背景中存在的至少一项问题，本发明提供了基于Transformer的视频时空超分辨率方法。

本发明的目的至少通过如下技术方案之一实现。

基于Transformer的视频时空超分辨率方法，包括以下步骤：

S1、采集视频时空超分辨率的模型训练样本；

S2、构建高帧率低分辨率视频序列生成模型，基于Transformer注意力机制的时域特征融合的生成中间帧，生成高帧率低分辨率视频序列；

S3、构建高帧率高分辨率视频序列生成模型，基于Transformer注意力机制的时空域特征融合，重建高帧率高分辨率视频序列；

S4、构建基于Transformer的视频时空超分辨率模型并训练，根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。

进一步地，步骤S1中，选用涵盖各种场景和动作的视频序列的原始数据集；

将原始数据集提供的视频序列I^HR视为高帧率高分辨率视频序列；原始数据集中每个视频序列表示为

T表示视频序列的长度，即一段视频的帧数，

表示视频序列中第i帧图像；i＝1,…,T；

对原始数据集中的视频序列的预处理具体如下：

先通过对原始数据集中原有的高帧率高分辨率视频序列I^HR通过双三次插值进行r倍下采样处理得到高帧率低分辨率视频序列，再进行a倍下采样处理得到低帧率低分辨率视频序列，构建训练数据集。

进一步地，步骤S2中，构建的高帧率低分辨率视频序列生成模型中，基于Transformer注意力机制的时域特征融合的生成中间帧，生成高帧率低分辨率视频序列，包括以下步骤：

S2.1、对预处理得到的低帧率低分辨率视频序列，通过卷积和残差模块计算得到低帧率低分辨率初始特征序列，在低帧率低分辨率视频序列中相邻的两帧图像之间生成中间帧图像，对于要生成的中间帧图像即第t帧图像，前一帧图像的特征记为F_t-1，后一帧图像的特征记为F_t+1；

S2.2、基于Transformer注意力机制，获取要生成的中间帧图像的相邻帧图像特征的联系信息，得到帧之间的特征联系信息；对于要生成的中间帧图像的相邻的两帧图像特征，相邻帧图像特征的联系信息包括中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R_t-1→t+1，以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R_t+1→t-1；

S2.3、融合中间帧图像的前一帧图像特征F_t-1和正向联系信息R_t-1→t+1，得到由前往后的正向中间帧特征F_t-1→t；融合中间帧图像的后一帧图像特征F_t+1和反向联系信息R_t+1→t-1，得到由后往前的反向中间帧特征F_t+1→t；将正向中间帧特征F_t-1→t和反向中间帧特征F_t+1→t进行融合，具体为将正向中间帧特征F_t-1→t和反向中间帧特征F_t+1→t拼接再通过卷积计算，得到最终的中间帧特征F_middle，具体如下：

F_t-1→t＝F_t-1+R_t-1→t+1；

F_t+1→t＝F_t+1+R_t+1→t-1；

F_middle＝Conv(Concate(F_t-1→t,F_t+1→t))；

S2.4、对生成的最终的中间帧特征F_middle通过RDN(Residual Dense Network)模块进行特征学习，得到中间帧的特征信息F_t，再通过卷积计算将中间帧的特征信息转为图像信息，生成中间帧图像；中间帧图像和预处理得到的低帧率低分辨率视频序列按时间顺序拼接成高帧率低分辨率视频序列，即将中间帧图像插入对应的前一帧图像和后一帧图像之间。

进一步地，步骤S2.2中，获取中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R_t-1→t+1，以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R_t+1→t-1，具体如下：

对前一帧图像的图像特征F_t-1进行卷积操作得到Transformer注意力机制的‘查询’：query(q₁)；

对后一帧图像的图像特征F_t+1进行分别进行两次卷积操作得到Transformer注意力机制‘键值对’：key(k₁)和value(v₁)；

将得到的‘查询’q₁、‘键值对’key(k₁)和value(v₁)分别进行分块展开操作；q₁、k₁、v₁的大小都为f_channel×patch_L×patch_L，其中f_channel表示特征通道数；

对于每个大小为patch_L×patch_L的特征通道，将其分为n块，每块分辨率为

原本大小为patch_L×patch_L的每个通道特征可表示为n×patch×patch，由于总共有f_channel个特征通道，最终可转为n个维度为patch×patch×f_channel的特征；

通过Transformer注意力机制计算相邻帧图像特征的联系信息，对于每层Transformer具体过程为：通过softmax计算得到‘查询’query(q₁)跟key(k₁)之间的关系，以权重分布的形式对value(v₁)进行计算，再通过卷积计算得到前一帧图像特征在后一帧图像特征上的响应关联Respon，具体数学表达式如下：

Respon＝Conv(Attention(q₁,k₁,v₁))；

其中，d_k表示输入的特征维度即patch×patch×f_channel；

通过M层Transformer计算后，将Transformer输出的结果进行一次卷积计算作为前一帧图像特征到后一帧图像特征的联系信息R_t-1→t+1，具体如下：

R_t-1→t+1＝Conv(Respon)；

用同样的方法得到后一帧图像特征到前一帧图像特征的联系信息R_t+1→t-1。

进一步地，步骤S3中，构建的高帧率高分辨率视频序列生成模型中，基于Transformer注意力机制的时空域特征融合，重建高帧率高分辨率视频序列，包括以下步骤：

S3.1、提取视频序列的初始特征序列：利用卷积对步骤S2.4中得到的中间帧图像t提取初始特征，和步骤S2.1生成的低帧率低分辨率初始特征序列按时序拼接，对拼接后的高帧率低分辨率的序列特征通过卷积操作，得到最终的高帧率低分辨率初始特征序列F；

S3.2、使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征R_all；

S3.3、将学习到的总时空域联系特征R_all通过重建模块得到重建特征F_h，并通过卷积计算增加重建特征F_h通道数目，并通过PixelShuffle方式将重建特征F_h加深的通道数转为重建特征F_h的宽度，即放大重建特征F_h的分辨率，特征分辨率放大r倍，得到上采样后的高分辨率特征；

S3.4、通过卷积操作将高分辨率特征转为图像信息，并将S2.4得到的高帧率低分辨率视频序列进行双线性插值放大；将两者相加得到最终的高帧率高分辨率视频序列。

进一步地，步骤S3.2中，使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征R_all，具体包括以下步骤：

S3.2.1、将高帧率低分辨率初始特征序列F特征划分为小尺度特征块，使用基于Transformer注意力机制提取小尺度特征块的时空域联系特征R_small；

S3.2.2、将高帧率低分辨率初始特征序列F特征划分为大尺度特征块，使用基于Transformer注意力机制提取大尺度特征块时域联系特征R_large；

S3.2.3、将时空域联系特征R_small和时域联系特征R_large相加得到总时空域联系特征R_all。

进一步地，步骤S3.2.1具体如下：

对步骤S3.1中得到的高帧率低分辨率初始特征序列F进行位置编码与卷积计算，得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value)；将q，k，v的每个特征通道划分为n_s个特征块；对于每个特征块，通过Transformer注意力机制，计算得到该特征块与同一帧图像特征上的n_s-1个特征块的联系，以及该特征块同其他帧图像特征上的n_s个特征块联系；将Transformer输出的结果进行卷积计算获得小尺度特征块的时空域联系特征R_small。

进一步地，步骤S3.2.2具体如下：

利用步骤S3.1中得到辨率的高帧率低分初始特征序列F进行位置编码与卷积计算，得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value)；将q，k，v的每个特征通道划分为n_L个特征块；对于每个特征块，通过Transformer注意力机制，计算当前特征块与视频序列上的不同帧图像特征中与该特征块相同位置的特征块在时域上的联系；将Transformer输出的结果进行卷积计算获得大尺度特征块时域联系特征R_large。

进一步地，步骤S4包括以下步骤：

S4.1、构建基于Transformer的视频时空超分辨率模型，包括高帧率低分辨率视频序列生成模型和高帧率高分辨率视频序列生成模型。高帧率低分辨率视频序列生成模型接收低帧率低分辨率视频序列，输出高帧率低分辨率视频序列至高帧率高分辨率视频序列生成模型，高帧率高分辨率视频序列生成模型输出高帧率高分辨率视频序列，完成视频时空超分辨率重建；

S4.2、采用Charbonnier Loss，构建基于Transformer的视频时空超分辨率重建模型的损失函数L_charbonnier，具体如下：

其中，

表示原始数据集中的高帧率高分辨率视频序列的第t帧，

表示基于Transformer的视频时空超分辨率模型生成的高帧率高分辨率的视频序列的第t帧；ε为常数，用于使基于Transformer的视频时空超分辨率模型训练稳定；

S4.3、根据原始数据集和训练数据集对基于Transformer的视频时空超分辨率模型进行训练，通过峰值信噪比(PSNR)和结构相似性指数(SSIM)对基于Transformer的视频时空超分辨率模型进行评价，得到训练好的基于Transformer的视频时空超分辨率模型。

与现有技术相比，本发明包括以下有益效果：

1)基于Transformer的视频时空超分辨率重建，相比于以往序列数据的特征提取器RNN，Transformer可以并行处理输入的序列数据，并且不会产生模型过深梯度消失问题；并且可以有效学习到图像不同区域之间、视频序列不同帧之间的联系。

2)本发明结合了Transformer注意力机制获取了视频序列中的时空联系，实现了视频在时空上的超分辨率增强。

附图说明

图1是本发明一个实施例中基于Transformer的视频时空超分辨率方法流程图。

图2是本发明一个实施例中基于Transformer注意力机制的时域特征融合的视频插帧处理方法结构。

图3是本发明一个实施例中基于Transformer注意力机制的时空域特征融合的视频超分辨率增强方法结构。

具体实施方式

下面通过具体实施方式对本发明作进一步详细地描述，但本发明的实施方式并不限于此。

实施例1：

基于Transformer的视频时空超分辨率方法，如图1所示，包括以下步骤：

S1、采集视频时空超分辨率的模型训练样本；

本实施例中，选用涵盖各种场景和动作的视频序列的原始数据集Vimeo90kTriplet；

T表示视频序列的长度，即一段视频的帧数，

表示视频序列中第i帧图像；i＝1,…,T；

对原始数据集中的视频序列的预处理具体如下：

先通过对原始数据集中原有的高帧率高分辨率视频序列I^HR通过双三次插值进行r倍下采样处理得到高帧率低分辨率视频序列，再进行a倍下采样处理得到低帧率低分辨率视频序列，构建训练数据集；本实施例中，r＝4，a＝2；训练数据集的形式为两帧低分辨率图像构成的序列

目标是生成三帧高分辨率图像序列

S2、构建高帧率低分辨率视频序列生成模型，基于Transformer注意力机制的时域特征融合的生成中间帧，生成高帧率低分辨率视频序列，包括以下步骤：

S2.1、对预处理得到的低帧率低分辨率视频序列，通过卷积和残差模块计算得到低帧率低分辨率初始特征序列，在低帧率低分辨率视频序列中相邻的两帧图像之间生成中间帧图像，对于要生成的中间帧图像即第t帧图像，前一帧图像的特征记为F_t-1，后一帧图像的特征记为F_t+1；本实施例中，低帧率低分辨率视频序列的图像大小为64×64，残差模块的数量为5，t为2，即第一帧和第三帧生成第二帧。

S2.2、基于Transformer注意力机制，获取要生成的中间帧图像的相邻帧图像特征的联系信息，得到帧之间的特征联系信息；对于要生成的中间帧图像的相邻的两帧图像特征，相邻帧图像特征的联系信息包括中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R_1→3，以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R_3→1；

获取中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R_1→3，以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R_3→1，具体如下：

对前一帧图像的图像特征F₁进行卷积操作得到Transformer注意力机制的‘查询’：query(q₁)；

对后一帧图像的图像特征F₃进行分别进行两次卷积操作得到Transformer注意力机制‘键值对’：key(k₁)和value(v₁)；

将得到的‘查询’q₁、‘键值对’key(k₁)和value(v₁)分别进行分块展开操作；q₁、k₁、v₁的大小都为f_channel×patch_L×patch_L，其中f_channel表示特征通道数；本实施例中，f_channel为64，patch_L为64。

原本大小为patch_L×patch_L的每个通道特征可表示为n×patch×patch，由于总共有f_channel个特征通道，最终可转为n个维度为patch×patch×f_channel的特征；本实施例中，patch为8，n为64。

Respon＝Conv(Attention(q₁,k₁,v₁))；

其中，d_k表示输入的特征维度即patch×patch×f_channel；

通过M层Transformer计算后，将Transformer输出的结果进行一次卷积计算作为前一帧图像特征到后一帧图像特征的联系信息R_1→3，具体如下：

R_1→3＝Conv(Respon)；

用同样的方法得到后一帧图像特征到前一帧图像特征的联系信息R_3→1。

S2.3、本实施例中，融合中间帧图像的前一帧图像特征F₁和正向联系信息R_1→3，得到由前往后的正向中间帧特征F_1→2；融合中间帧图像的后一帧图像特征F₃和反向联系信息R_3→1，得到由后往前的反向中间帧特征F_2→1；将正向中间帧特征F_1→2和反向中间帧特征F_2→1进行融合，具体为将正向中间帧特征F_1→2和反向中间帧特征F_2→1拼接再通过卷积计算，得到最终的中间帧特征F₂，具体如下：

F_1→2＝F₁+R_1→3；

F_2→1＝F₃+R_3→1；

F₂＝Conv(Concate(F_1→2,F_2→1))；

S2.4、对生成的最终的中间帧特征F₂通过RDN模块进行特征学习，再通过卷积计算将中间帧的特征信息转为图像信息，生成中间帧图像

中间帧图像

和预处理得到的低帧率低分辨率视频序列按时间顺序拼接成高帧率低分辨率视频序列

即将中间帧图像

插入对应的前一帧图像

和后一帧图像

之间。

S3、构建高帧率高分辨率视频序列生成模型，基于Transformer注意力机制的时空域特征融合，重建高帧率高分辨率视频序列，包括以下步骤：

S3.2、使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征R_all，具体包括以下步骤：

S3.2.1、将高帧率低分辨率初始特征序列F特征划分为小尺度特征块，使用基于Transformer注意力机制提取小尺度特征块的时空域联系特征R_small，具体如下：

对步骤S3.1中得到的高帧率低分辨率初始特征序列F进行位置编码与卷积计算，得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value)；将q，k，v的每个特征通道划分为n_s个特征块；对于每个特征块，通过Transformer注意力机制，计算得到该特征块与同一帧图像特征上的n_s-1个特征块的联系，以及该特征块与同其他帧图像特征上的n_s个特征块联系；将Transformer输出的结果进行卷积计算获得小尺度特征块的时空域联系特征R_small。

S3.2.2、将高帧率低分辨率初始特征序列F特征划分为大尺度特征块，使用基于Transformer注意力机制提取大尺度特征块时域联系特征R_large，具体如下：

利用步骤S3.1中得到的高帧率低分辨率初始特征序列F进行位置编码与卷积计算，得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value)；将q，k，v的每个特征通道划分为n_L个特征块；对于每个特征块，通过Transformer注意力机制，计算当前特征块与视频序列上的不同帧图像特征中与该特征块相同位置的特征块在时域上的联系；将Transformer输出的结果进行卷积计算获得大尺度特征块时域联系特征R_large。

S3.3、将学习到的总时空域联系特征R_all通过重建模块得到重建特征F_h，并通过卷积计算增加重建特征F_h通道数目，并通过PixelShuffle方式将重建特征F_h加深的通道数转为重建特征F_h的宽度，即放大重建特征F_h的分辨率，特征分辨率放大r倍，得到上采样后的高分辨率特征；本实施例中，重建模块包括30个残差模块Resblock，r为4。

S3.4、通过卷积操作将高分辨率特征转为图像信息，并将S2.4得到的高帧率低分辨率视频序列进行双线性插值放大；将两者相加得到最终的高帧率高分辨率视频序列

S4、构建基于Transformer的视频时空超分辨率模型并训练，包括以下步骤：

其中，

表示原始数据集中的高帧率高分辨率视频序列的第t帧，

表示基于Transformer的视频时空超分辨率模型生成的高帧率高分辨率的视频序列的第t帧；ε为常数，用于使基于Transformer的视频时空超分辨率模型训练稳定；本实施例中，ε为1e-12。

S4.3、根据原始数据集和训练数据集对基于Transformer的视频时空超分辨率模型进行训练，通过峰值信噪比(PSNR)和结构相似性指数(SSIM)对基于Transformer的视频时空超分辨率模型进行评价，得到训练好的基于Transformer的视频时空超分辨率模型；

根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。

本实施例在数据集Vimeo90K Triplet测试集上进行基于Transformer的时域特征融合的生成中间帧，生成高帧率视频序列。

本实施例主要同以往的插帧方法对比，主要验证生成的中间帧图像的效果。因此我们选用的是低帧率高分辨率视频序列输入，即没有对图像进行空间上降采样操作。在具体的实施中，我们的输入图像大小为3×128×128，并且S2.1使用了6层残差模块提取浅层特征，S2.2使用了8层Transformer注意力机制提取帧间信息。实验对比结果如表1。其中TOFlow来自文献1(详见：Xue T,Chen B,Wu J,et al.Video enhancement with task-oriented flow[J].International Journal of Computer Vision,2019,127(8):1106-1125.)，DAIN来自文献2(详见：Bao W,Lai W S,Ma C,et al.Depth-aware video frameinterpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2019:3703-3712.)CAIN来自文献3(详见：Choi M,Kim H,HanB,et al.Channel attention is all you need for video frame interpolation[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(07):10663-10671.)，AdaCoF来自文献4(详见：Lee H,Kim T,Chung T,et al.Adacof:Adaptivecollaboration of flows for video frame interpolation[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:5316-5325.)

表1

Method	TOFlow<sup>[1]</sup>	DAIN<sup>[2]</sup>	CAIN<sup>[3]</sup>	AdaCoF<sup>[4]</sup>	本发明
						PSNR	33.73	34.71	34.65	34.27	34.824
SSIM	0.968	0.976	0.973	0.971	0.974

由表可得，本发明的基于Transformer注意力机制的时域特征融合的生成中间帧，生成高帧率视频序列的方法，在PSNR上本发明取得最好的效果，在SSIM表现上，本发明也取得较好的结果。说明本发明能生成高质量的中间帧图像

实施例2

本实施例在数据集Vimeo90K Triplet测试集上进行基于Transformer注意力机制的时域特征融合的生成中间帧，生成高帧率低分辨率视频序列。实验对比结果如表2。其中STAR来自文献5(详见：Haris M,Shakhnarovich G,Ukita N.Space-Time-Aware Multi-Resolution Video Enhancement[C]//2020IEEE/CVF Conference on Computer Visionand Pattern Recognition(CVPR).IEEE,2020)

表2

Method	TOFlow<sup>[1]</sup>	DAIN<sup>[2]</sup>	STAR<sup>[5]</sup>	本发明
					PSNR	36.04	36.69	39.13	39.32
SSIM	0.984	0.986	0.991	0.988

由表可以看出，本发明的行基于Transformer的时域特征融合的生成中间帧，生成高帧率低分辨率的视频序列的方法，相比于以往的方法，PSNR比STAR提高了0.19dB，SSIM低了0.003，说明本发明能生成高质量的中间帧图像，重建高帧率低分辨率视频序列。

实施例3

本实施例在数据集Vimeo-90K的Vimeo-Triplet测试集上进行的基于Transformer的视频时空超分辨率，本实施例输入为第一帧、第三帧组成的低帧率低分辨率图像序列，输出为第一帧、第二帧、第三帧组成的高帧率高分辨率视频序列。实验对比结果如表3，表格中VSR表示第一帧第三帧的超分辨率结果，VFI表示插帧并放大后的第二帧的结果，AVE表示这三帧的平均PSNR结果。其中STAR来自文献5(详见：Haris M Shakhnarovich G,UkitaN.Space-Time-Aware Multi-Resolution Video Enhancement[C]//2020IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2020)。

由表可以看出，本发明的基于Transformer的视频时空超分辨率，在视频超分辨率、视频插帧都有很好的表现，其中插帧并放大后的第二帧PSNR比STAR提高了0.003dB，放大后的第一帧第三帧PSNR比STARNet提高了0.097dB，总的PSNR结果比STARNet提高了0.066dB。说明本发明能生成高质量重建高帧率高分辨率视频序列。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于Transformer的视频时空超分辨率方法，其特征在于，包括以下步骤：

S1、采集视频时空超分辨率的模型训练样本；

2.根据权利要求1所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S1中，选用涵盖各种场景和动作的视频序列的原始数据集；

T表示视频序列的长度，即一段视频的帧数，

表示视频序列中第i帧图像；i＝1,…,T；

对原始数据集中的视频序列的预处理具体如下：

3.根据权利要求1所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S2中，构建的高帧率低分辨率视频序列生成模型中，基于Transformer注意力机制的时域特征融合的生成中间帧，生成高帧率低分辨率视频序列，包括以下步骤：

F_t-1→t＝F_t-1+R_t-1→t+1；

F_t+1→t＝F_t+1+R_t+1→t-1；

F_middle＝Conv(Concate(F_t-1→t,F_t+1→t))；

S2.4、对生成的最终的中间帧特征F_middle通过RDN模块进行特征学习，得到中间帧的特征信息F_t，再通过卷积计算将中间帧的特征信息转为图像信息，生成中间帧图像；中间帧图像和预处理得到的低帧率低分辨率视频序列按时间顺序拼接成高帧率低分辨率视频序列，即将中间帧图像插入对应的前一帧图像和后一帧图像之间。

4.根据权利要求3所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S2.2中，获取中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R_t-1→t+1，以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R_t+1→t-1，具体如下：

对于每个大小为patch_L×patch_L的特征通道，将其分为n块，每块分辨率为patch×patch，

Respon＝Conv(Attention(q₁,k₁,v₁))；

其中，d_k表示输入的特征维度即patch×patch×f_channel；

R_t-1→t+1＝Conv(Respon)；

5.根据权利要求4所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S3中，构建的高帧率高分辨率视频序列生成模型中，基于Transformer注意力机制的时空域特征融合，重建高帧率高分辨率视频序列，包括以下步骤：

6.根据权利要求5所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S3.2中，使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征R_all，具体包括以下步骤：

7.根据权利要求6所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S3.2.1具体如下：

8.根据权利要求6所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S3.2.2具体如下：

9.根据权力要求1～8任一项所述的基于Transformer的视频时空超分辨率方法，其特征在于，步骤S4包括以下步骤：

其中，

表示原始数据集中的高帧率高分辨率视频序列的第t帧，

10.一种计算机可读介质，处理器，其上存储有数据和计算机程序，其特征在于，该介质存储有训练权利要求1-8的图像数据，同时可以运行成程序，该程序执行权利要求9的基于Transformer的视频时空超分辨率方法。