CN114757828A - 基于Transformer的视频时空超分辨率方法 - Google Patents

基于Transformer的视频时空超分辨率方法 Download PDF

Info

Publication number
CN114757828A
CN114757828A CN202210346886.XA CN202210346886A CN114757828A CN 114757828 A CN114757828 A CN 114757828A CN 202210346886 A CN202210346886 A CN 202210346886A CN 114757828 A CN114757828 A CN 114757828A
Authority
CN
China
Prior art keywords
frame
resolution
feature
image
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210346886.XA
Other languages
English (en)
Inventor
邢晓芬
曹俏钰
徐向民
郭锴凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhongshan Institute of Modern Industrial Technology of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202210346886.XA priority Critical patent/CN114757828A/zh
Publication of CN114757828A publication Critical patent/CN114757828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Television Systems (AREA)

Abstract

本发明公开了基于Transformer的视频时空超分辨率方法。所述方法包括以下步骤:采集视频时空超分辨率的模型训练样本;构建高帧率低分辨率视频序列生成模型,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列;构建高帧率高分辨率视频序列生成模型,基于Transformer注意力机制的时空域特征融合,重建高帧率高分辨率视频序列;构建基于Transformer的视频时空超分辨率模型并训练,根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。本发明结合了Transformer注意力机制获取了视频序列中的时空联系,实现了视频在时空上的超分辨率增强。

Description

基于Transformer的视频时空超分辨率方法
技术领域
本发明属于视频时空超分辨率增强领域,涉及基于Transformer的视频时空超分辨率方法。
背景技术
视频超分辨率增强是指利用相同动态场景下的多帧低分辨率的视频序列,重构高帧率高分辨率的视频序列。包括两个方面:时序上的增量超分辨和空间上的视频超分辨率。近年来深度学习算法技术的发展使得时序上的增量超分辨技术和空间上的视频超分辨率技术得到很大的改进,如公布号为CN111654746B的专利申请公开的一种视频的插帧方法、装置、电子设备和存储介质;和公布号为CN112365403A的专利申请公开的一种基于深度学习和相邻帧的视频超分辨率恢复方法。但是传统的深度学习方法很少可以同时完成时空上的超分辨率。
在视频时空超分辨领域中,有一些研究者尝试基于光流的方法。但是基于光流的方法通常以预设的时空关系建模相邻视频帧的联系,无法适应多种多样的运动情况,最终生成的序列容易产生抖动的视觉现象。如公开号为CN113034380A的专利申请公开的一种基于改进可变形卷积校正的视频时空超分辨率方法和装置。实际上,视频的数据在空间和时间上是具有关联的,研究融合时空特征的视频时空超分辨率技术可以获取视频中更多的信息,进而提高视频时空超分辨率的效果。
发明内容
为了解决上述技术背景中存在的至少一项问题,本发明提供了基于Transformer的视频时空超分辨率方法。
本发明的目的至少通过如下技术方案之一实现。
基于Transformer的视频时空超分辨率方法,包括以下步骤:
S1、采集视频时空超分辨率的模型训练样本;
S2、构建高帧率低分辨率视频序列生成模型,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列;
S3、构建高帧率高分辨率视频序列生成模型,基于Transformer注意力机制的时空域特征融合,重建高帧率高分辨率视频序列;
S4、构建基于Transformer的视频时空超分辨率模型并训练,根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。
进一步地,步骤S1中,选用涵盖各种场景和动作的视频序列的原始数据集;
将原始数据集提供的视频序列IHR视为高帧率高分辨率视频序列;原始数据集中每个视频序列表示为
Figure BDA0003580979820000021
T表示视频序列的长度,即一段视频的帧数,
Figure BDA0003580979820000022
表示视频序列中第i帧图像;i=1,…,T;
对原始数据集中的视频序列的预处理具体如下:
先通过对原始数据集中原有的高帧率高分辨率视频序列IHR通过双三次插值进行r倍下采样处理得到高帧率低分辨率视频序列,再进行a倍下采样处理得到低帧率低分辨率视频序列,构建训练数据集。
进一步地,步骤S2中,构建的高帧率低分辨率视频序列生成模型中,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列,包括以下步骤:
S2.1、对预处理得到的低帧率低分辨率视频序列,通过卷积和残差模块计算得到低帧率低分辨率初始特征序列,在低帧率低分辨率视频序列中相邻的两帧图像之间生成中间帧图像,对于要生成的中间帧图像即第t帧图像,前一帧图像的特征记为Ft-1,后一帧图像的特征记为Ft+1
S2.2、基于Transformer注意力机制,获取要生成的中间帧图像的相邻帧图像特征的联系信息,得到帧之间的特征联系信息;对于要生成的中间帧图像的相邻的两帧图像特征,相邻帧图像特征的联系信息包括中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息Rt-1→t+1,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息Rt+1→t-1
S2.3、融合中间帧图像的前一帧图像特征Ft-1和正向联系信息Rt-1→t+1,得到由前往后的正向中间帧特征Ft-1→t;融合中间帧图像的后一帧图像特征Ft+1和反向联系信息Rt+1→t-1,得到由后往前的反向中间帧特征Ft+1→t;将正向中间帧特征Ft-1→t和反向中间帧特征Ft+1→t进行融合,具体为将正向中间帧特征Ft-1→t和反向中间帧特征Ft+1→t拼接再通过卷积计算,得到最终的中间帧特征Fmiddle,具体如下:
Ft-1→t=Ft-1+Rt-1→t+1
Ft+1→t=Ft+1+Rt+1→t-1
Fmiddle=Conv(Concate(Ft-1→t,Ft+1→t));
S2.4、对生成的最终的中间帧特征Fmiddle通过RDN(Residual Dense Network)模块进行特征学习,得到中间帧的特征信息Ft,再通过卷积计算将中间帧的特征信息转为图像信息,生成中间帧图像;中间帧图像和预处理得到的低帧率低分辨率视频序列按时间顺序拼接成高帧率低分辨率视频序列,即将中间帧图像插入对应的前一帧图像和后一帧图像之间。
进一步地,步骤S2.2中,获取中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息Rt-1→t+1,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息Rt+1→t-1,具体如下:
对前一帧图像的图像特征Ft-1进行卷积操作得到Transformer注意力机制的‘查询’:query(q1);
对后一帧图像的图像特征Ft+1进行分别进行两次卷积操作得到Transformer注意力机制‘键值对’:key(k1)和value(v1);
将得到的‘查询’q1、‘键值对’key(k1)和value(v1)分别进行分块展开操作;q1、k1、v1的大小都为fchannel×patchL×patchL,其中fchannel表示特征通道数;
对于每个大小为patchL×patchL的特征通道,将其分为n块,每块分辨率为
Figure BDA0003580979820000031
原本大小为patchL×patchL的每个通道特征可表示为n×patch×patch,由于总共有fchannel个特征通道,最终可转为n个维度为patch×patch×fchannel的特征;
通过Transformer注意力机制计算相邻帧图像特征的联系信息,对于每层Transformer具体过程为:通过softmax计算得到‘查询’query(q1)跟key(k1)之间的关系,以权重分布的形式对value(v1)进行计算,再通过卷积计算得到前一帧图像特征在后一帧图像特征上的响应关联Respon,具体数学表达式如下:
Figure BDA0003580979820000041
Respon=Conv(Attention(q1,k1,v1));
其中,dk表示输入的特征维度即patch×patch×fchannel
通过M层Transformer计算后,将Transformer输出的结果进行一次卷积计算作为前一帧图像特征到后一帧图像特征的联系信息Rt-1→t+1,具体如下:
Rt-1→t+1=Conv(Respon);
用同样的方法得到后一帧图像特征到前一帧图像特征的联系信息Rt+1→t-1
进一步地,步骤S3中,构建的高帧率高分辨率视频序列生成模型中,基于Transformer注意力机制的时空域特征融合,重建高帧率高分辨率视频序列,包括以下步骤:
S3.1、提取视频序列的初始特征序列:利用卷积对步骤S2.4中得到的中间帧图像t提取初始特征,和步骤S2.1生成的低帧率低分辨率初始特征序列按时序拼接,对拼接后的高帧率低分辨率的序列特征通过卷积操作,得到最终的高帧率低分辨率初始特征序列F;
S3.2、使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征Rall
S3.3、将学习到的总时空域联系特征Rall通过重建模块得到重建特征Fh,并通过卷积计算增加重建特征Fh通道数目,并通过PixelShuffle方式将重建特征Fh加深的通道数转为重建特征Fh的宽度,即放大重建特征Fh的分辨率,特征分辨率放大r倍,得到上采样后的高分辨率特征;
S3.4、通过卷积操作将高分辨率特征转为图像信息,并将S2.4得到的高帧率低分辨率视频序列进行双线性插值放大;将两者相加得到最终的高帧率高分辨率视频序列。
进一步地,步骤S3.2中,使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征Rall,具体包括以下步骤:
S3.2.1、将高帧率低分辨率初始特征序列F特征划分为小尺度特征块,使用基于Transformer注意力机制提取小尺度特征块的时空域联系特征Rsmall
S3.2.2、将高帧率低分辨率初始特征序列F特征划分为大尺度特征块,使用基于Transformer注意力机制提取大尺度特征块时域联系特征Rlarge
S3.2.3、将时空域联系特征Rsmall和时域联系特征Rlarge相加得到总时空域联系特征Rall
进一步地,步骤S3.2.1具体如下:
对步骤S3.1中得到的高帧率低分辨率初始特征序列F进行位置编码与卷积计算,得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value);将q,k,v的每个特征通道划分为ns个特征块;对于每个特征块,通过Transformer注意力机制,计算得到该特征块与同一帧图像特征上的ns-1个特征块的联系,以及该特征块同其他帧图像特征上的ns个特征块联系;将Transformer输出的结果进行卷积计算获得小尺度特征块的时空域联系特征Rsmall
进一步地,步骤S3.2.2具体如下:
利用步骤S3.1中得到辨率的高帧率低分初始特征序列F进行位置编码与卷积计算,得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value);将q,k,v的每个特征通道划分为nL个特征块;对于每个特征块,通过Transformer注意力机制,计算当前特征块与视频序列上的不同帧图像特征中与该特征块相同位置的特征块在时域上的联系;将Transformer输出的结果进行卷积计算获得大尺度特征块时域联系特征Rlarge
进一步地,步骤S4包括以下步骤:
S4.1、构建基于Transformer的视频时空超分辨率模型,包括高帧率低分辨率视频序列生成模型和高帧率高分辨率视频序列生成模型。高帧率低分辨率视频序列生成模型接收低帧率低分辨率视频序列,输出高帧率低分辨率视频序列至高帧率高分辨率视频序列生成模型,高帧率高分辨率视频序列生成模型输出高帧率高分辨率视频序列,完成视频时空超分辨率重建;
S4.2、采用Charbonnier Loss,构建基于Transformer的视频时空超分辨率重建模型的损失函数Lcharbonnier,具体如下:
Figure BDA0003580979820000061
其中,
Figure BDA0003580979820000062
表示原始数据集中的高帧率高分辨率视频序列的第t帧,
Figure BDA0003580979820000063
表示基于Transformer的视频时空超分辨率模型生成的高帧率高分辨率的视频序列的第t帧;ε为常数,用于使基于Transformer的视频时空超分辨率模型训练稳定;
S4.3、根据原始数据集和训练数据集对基于Transformer的视频时空超分辨率模型进行训练,通过峰值信噪比(PSNR)和结构相似性指数(SSIM)对基于Transformer的视频时空超分辨率模型进行评价,得到训练好的基于Transformer的视频时空超分辨率模型。
与现有技术相比,本发明包括以下有益效果:
1)基于Transformer的视频时空超分辨率重建,相比于以往序列数据的特征提取器RNN,Transformer可以并行处理输入的序列数据,并且不会产生模型过深梯度消失问题;并且可以有效学习到图像不同区域之间、视频序列不同帧之间的联系。
2)本发明结合了Transformer注意力机制获取了视频序列中的时空联系,实现了视频在时空上的超分辨率增强。
附图说明
图1是本发明一个实施例中基于Transformer的视频时空超分辨率方法流程图。
图2是本发明一个实施例中基于Transformer注意力机制的时域特征融合的视频插帧处理方法结构。
图3是本发明一个实施例中基于Transformer注意力机制的时空域特征融合的视频超分辨率增强方法结构。
具体实施方式
下面通过具体实施方式对本发明作进一步详细地描述,但本发明的实施方式并不限于此。
实施例1:
基于Transformer的视频时空超分辨率方法,如图1所示,包括以下步骤:
S1、采集视频时空超分辨率的模型训练样本;
本实施例中,选用涵盖各种场景和动作的视频序列的原始数据集Vimeo90kTriplet;
将原始数据集提供的视频序列IHR视为高帧率高分辨率视频序列;原始数据集中每个视频序列表示为
Figure BDA0003580979820000071
T表示视频序列的长度,即一段视频的帧数,
Figure BDA0003580979820000072
表示视频序列中第i帧图像;i=1,…,T;
对原始数据集中的视频序列的预处理具体如下:
先通过对原始数据集中原有的高帧率高分辨率视频序列IHR通过双三次插值进行r倍下采样处理得到高帧率低分辨率视频序列,再进行a倍下采样处理得到低帧率低分辨率视频序列,构建训练数据集;本实施例中,r=4,a=2;训练数据集的形式为两帧低分辨率图像构成的序列
Figure BDA0003580979820000073
目标是生成三帧高分辨率图像序列
Figure BDA0003580979820000074
S2、构建高帧率低分辨率视频序列生成模型,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列,包括以下步骤:
S2.1、对预处理得到的低帧率低分辨率视频序列,通过卷积和残差模块计算得到低帧率低分辨率初始特征序列,在低帧率低分辨率视频序列中相邻的两帧图像之间生成中间帧图像,对于要生成的中间帧图像即第t帧图像,前一帧图像的特征记为Ft-1,后一帧图像的特征记为Ft+1;本实施例中,低帧率低分辨率视频序列的图像大小为64×64,残差模块的数量为5,t为2,即第一帧和第三帧生成第二帧。
S2.2、基于Transformer注意力机制,获取要生成的中间帧图像的相邻帧图像特征的联系信息,得到帧之间的特征联系信息;对于要生成的中间帧图像的相邻的两帧图像特征,相邻帧图像特征的联系信息包括中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R1→3,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R3→1
获取中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息R1→3,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息R3→1,具体如下:
对前一帧图像的图像特征F1进行卷积操作得到Transformer注意力机制的‘查询’:query(q1);
对后一帧图像的图像特征F3进行分别进行两次卷积操作得到Transformer注意力机制‘键值对’:key(k1)和value(v1);
将得到的‘查询’q1、‘键值对’key(k1)和value(v1)分别进行分块展开操作;q1、k1、v1的大小都为fchannel×patchL×patchL,其中fchannel表示特征通道数;本实施例中,fchannel为64,patchL为64。
对于每个大小为patchL×patchL的特征通道,将其分为n块,每块分辨率为
Figure BDA0003580979820000081
原本大小为patchL×patchL的每个通道特征可表示为n×patch×patch,由于总共有fchannel个特征通道,最终可转为n个维度为patch×patch×fchannel的特征;本实施例中,patch为8,n为64。
通过Transformer注意力机制计算相邻帧图像特征的联系信息,对于每层Transformer具体过程为:通过softmax计算得到‘查询’query(q1)跟key(k1)之间的关系,以权重分布的形式对value(v1)进行计算,再通过卷积计算得到前一帧图像特征在后一帧图像特征上的响应关联Respon,具体数学表达式如下:
Figure BDA0003580979820000091
Respon=Conv(Attention(q1,k1,v1));
其中,dk表示输入的特征维度即patch×patch×fchannel
通过M层Transformer计算后,将Transformer输出的结果进行一次卷积计算作为前一帧图像特征到后一帧图像特征的联系信息R1→3,具体如下:
R1→3=Conv(Respon);
用同样的方法得到后一帧图像特征到前一帧图像特征的联系信息R3→1
S2.3、本实施例中,融合中间帧图像的前一帧图像特征F1和正向联系信息R1→3,得到由前往后的正向中间帧特征F1→2;融合中间帧图像的后一帧图像特征F3和反向联系信息R3→1,得到由后往前的反向中间帧特征F2→1;将正向中间帧特征F1→2和反向中间帧特征F2→1进行融合,具体为将正向中间帧特征F1→2和反向中间帧特征F2→1拼接再通过卷积计算,得到最终的中间帧特征F2,具体如下:
F1→2=F1+R1→3
F2→1=F3+R3→1
F2=Conv(Concate(F1→2,F2→1));
S2.4、对生成的最终的中间帧特征F2通过RDN模块进行特征学习,再通过卷积计算将中间帧的特征信息转为图像信息,生成中间帧图像
Figure BDA0003580979820000092
中间帧图像
Figure BDA0003580979820000093
和预处理得到的低帧率低分辨率视频序列按时间顺序拼接成高帧率低分辨率视频序列
Figure BDA0003580979820000094
即将中间帧图像
Figure BDA0003580979820000095
插入对应的前一帧图像
Figure BDA0003580979820000096
和后一帧图像
Figure BDA0003580979820000097
之间。
S3、构建高帧率高分辨率视频序列生成模型,基于Transformer注意力机制的时空域特征融合,重建高帧率高分辨率视频序列,包括以下步骤:
S3.1、提取视频序列的初始特征序列:利用卷积对步骤S2.4中得到的中间帧图像t提取初始特征,和步骤S2.1生成的低帧率低分辨率初始特征序列按时序拼接,对拼接后的高帧率低分辨率的序列特征通过卷积操作,得到最终的高帧率低分辨率初始特征序列F;
S3.2、使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征Rall,具体包括以下步骤:
S3.2.1、将高帧率低分辨率初始特征序列F特征划分为小尺度特征块,使用基于Transformer注意力机制提取小尺度特征块的时空域联系特征Rsmall,具体如下:
对步骤S3.1中得到的高帧率低分辨率初始特征序列F进行位置编码与卷积计算,得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value);将q,k,v的每个特征通道划分为ns个特征块;对于每个特征块,通过Transformer注意力机制,计算得到该特征块与同一帧图像特征上的ns-1个特征块的联系,以及该特征块与同其他帧图像特征上的ns个特征块联系;将Transformer输出的结果进行卷积计算获得小尺度特征块的时空域联系特征Rsmall
S3.2.2、将高帧率低分辨率初始特征序列F特征划分为大尺度特征块,使用基于Transformer注意力机制提取大尺度特征块时域联系特征Rlarge,具体如下:
利用步骤S3.1中得到的高帧率低分辨率初始特征序列F进行位置编码与卷积计算,得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value);将q,k,v的每个特征通道划分为nL个特征块;对于每个特征块,通过Transformer注意力机制,计算当前特征块与视频序列上的不同帧图像特征中与该特征块相同位置的特征块在时域上的联系;将Transformer输出的结果进行卷积计算获得大尺度特征块时域联系特征Rlarge
S3.2.3、将时空域联系特征Rsmall和时域联系特征Rlarge相加得到总时空域联系特征Rall
S3.3、将学习到的总时空域联系特征Rall通过重建模块得到重建特征Fh,并通过卷积计算增加重建特征Fh通道数目,并通过PixelShuffle方式将重建特征Fh加深的通道数转为重建特征Fh的宽度,即放大重建特征Fh的分辨率,特征分辨率放大r倍,得到上采样后的高分辨率特征;本实施例中,重建模块包括30个残差模块Resblock,r为4。
S3.4、通过卷积操作将高分辨率特征转为图像信息,并将S2.4得到的高帧率低分辨率视频序列进行双线性插值放大;将两者相加得到最终的高帧率高分辨率视频序列
Figure BDA0003580979820000114
S4、构建基于Transformer的视频时空超分辨率模型并训练,包括以下步骤:
S4.1、构建基于Transformer的视频时空超分辨率模型,包括高帧率低分辨率视频序列生成模型和高帧率高分辨率视频序列生成模型。高帧率低分辨率视频序列生成模型接收低帧率低分辨率视频序列,输出高帧率低分辨率视频序列至高帧率高分辨率视频序列生成模型,高帧率高分辨率视频序列生成模型输出高帧率高分辨率视频序列,完成视频时空超分辨率重建;
S4.2、采用Charbonnier Loss,构建基于Transformer的视频时空超分辨率重建模型的损失函数Lcharbonnier,具体如下:
Figure BDA0003580979820000111
其中,
Figure BDA0003580979820000112
表示原始数据集中的高帧率高分辨率视频序列的第t帧,
Figure BDA0003580979820000113
表示基于Transformer的视频时空超分辨率模型生成的高帧率高分辨率的视频序列的第t帧;ε为常数,用于使基于Transformer的视频时空超分辨率模型训练稳定;本实施例中,ε为1e-12。
S4.3、根据原始数据集和训练数据集对基于Transformer的视频时空超分辨率模型进行训练,通过峰值信噪比(PSNR)和结构相似性指数(SSIM)对基于Transformer的视频时空超分辨率模型进行评价,得到训练好的基于Transformer的视频时空超分辨率模型;
根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。
本实施例在数据集Vimeo90K Triplet测试集上进行基于Transformer的时域特征融合的生成中间帧,生成高帧率视频序列。
本实施例主要同以往的插帧方法对比,主要验证生成的中间帧图像的效果。因此我们选用的是低帧率高分辨率视频序列输入,即没有对图像进行空间上降采样操作。在具体的实施中,我们的输入图像大小为3×128×128,并且S2.1使用了6层残差模块提取浅层特征,S2.2使用了8层Transformer注意力机制提取帧间信息。实验对比结果如表1。其中TOFlow来自文献1(详见:Xue T,Chen B,Wu J,et al.Video enhancement with task-oriented flow[J].International Journal of Computer Vision,2019,127(8):1106-1125.),DAIN来自文献2(详见:Bao W,Lai W S,Ma C,et al.Depth-aware video frameinterpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2019:3703-3712.)CAIN来自文献3(详见:Choi M,Kim H,HanB,et al.Channel attention is all you need for video frame interpolation[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(07):10663-10671.),AdaCoF来自文献4(详见:Lee H,Kim T,Chung T,et al.Adacof:Adaptivecollaboration of flows for video frame interpolation[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:5316-5325.)
表1
Method TOFlow<sup>[1]</sup> DAIN<sup>[2]</sup> CAIN<sup>[3]</sup> AdaCoF<sup>[4]</sup> 本发明
PSNR 33.73 34.71 34.65 34.27 34.824
SSIM 0.968 0.976 0.973 0.971 0.974
由表可得,本发明的基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率视频序列的方法,在PSNR上本发明取得最好的效果,在SSIM表现上,本发明也取得较好的结果。说明本发明能生成高质量的中间帧图像
实施例2
本实施例在数据集Vimeo90K Triplet测试集上进行基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列。实验对比结果如表2。其中STAR来自文献5(详见:Haris M,Shakhnarovich G,Ukita N.Space-Time-Aware Multi-Resolution Video Enhancement[C]//2020IEEE/CVF Conference on Computer Visionand Pattern Recognition(CVPR).IEEE,2020)
表2
Method TOFlow<sup>[1]</sup> DAIN<sup>[2]</sup> STAR<sup>[5]</sup> 本发明
PSNR 36.04 36.69 39.13 39.32
SSIM 0.984 0.986 0.991 0.988
由表可以看出,本发明的行基于Transformer的时域特征融合的生成中间帧,生成高帧率低分辨率的视频序列的方法,相比于以往的方法,PSNR比STAR提高了0.19dB,SSIM低了0.003,说明本发明能生成高质量的中间帧图像,重建高帧率低分辨率视频序列。
实施例3
本实施例在数据集Vimeo-90K的Vimeo-Triplet测试集上进行的基于Transformer的视频时空超分辨率,本实施例输入为第一帧、第三帧组成的低帧率低分辨率图像序列,输出为第一帧、第二帧、第三帧组成的高帧率高分辨率视频序列。实验对比结果如表3,表格中VSR表示第一帧第三帧的超分辨率结果,VFI表示插帧并放大后的第二帧的结果,AVE表示这三帧的平均PSNR结果。其中STAR来自文献5(详见:Haris M Shakhnarovich G,UkitaN.Space-Time-Aware Multi-Resolution Video Enhancement[C]//2020IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2020)。
Figure BDA0003580979820000131
由表可以看出,本发明的基于Transformer的视频时空超分辨率,在视频超分辨率、视频插帧都有很好的表现,其中插帧并放大后的第二帧PSNR比STAR提高了0.003dB,放大后的第一帧第三帧PSNR比STARNet提高了0.097dB,总的PSNR结果比STARNet提高了0.066dB。说明本发明能生成高质量重建高帧率高分辨率视频序列。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于Transformer的视频时空超分辨率方法,其特征在于,包括以下步骤:
S1、采集视频时空超分辨率的模型训练样本;
S2、构建高帧率低分辨率视频序列生成模型,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列;
S3、构建高帧率高分辨率视频序列生成模型,基于Transformer注意力机制的时空域特征融合,重建高帧率高分辨率视频序列;
S4、构建基于Transformer的视频时空超分辨率模型并训练,根据训练好的基于Transformer的视频时空超分辨率模型对视频序列进行视频时空超分辨率重建。
2.根据权利要求1所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S1中,选用涵盖各种场景和动作的视频序列的原始数据集;
将原始数据集提供的视频序列IHR视为高帧率高分辨率视频序列;原始数据集中每个视频序列表示为
Figure FDA0003580979810000011
T表示视频序列的长度,即一段视频的帧数,
Figure FDA0003580979810000012
表示视频序列中第i帧图像;i=1,…,T;
对原始数据集中的视频序列的预处理具体如下:
先通过对原始数据集中原有的高帧率高分辨率视频序列IHR通过双三次插值进行r倍下采样处理得到高帧率低分辨率视频序列,再进行a倍下采样处理得到低帧率低分辨率视频序列,构建训练数据集。
3.根据权利要求1所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S2中,构建的高帧率低分辨率视频序列生成模型中,基于Transformer注意力机制的时域特征融合的生成中间帧,生成高帧率低分辨率视频序列,包括以下步骤:
S2.1、对预处理得到的低帧率低分辨率视频序列,通过卷积和残差模块计算得到低帧率低分辨率初始特征序列,在低帧率低分辨率视频序列中相邻的两帧图像之间生成中间帧图像,对于要生成的中间帧图像即第t帧图像,前一帧图像的特征记为Ft-1,后一帧图像的特征记为Ft+1
S2.2、基于Transformer注意力机制,获取要生成的中间帧图像的相邻帧图像特征的联系信息,得到帧之间的特征联系信息;对于要生成的中间帧图像的相邻的两帧图像特征,相邻帧图像特征的联系信息包括中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息Rt-1→t+1,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息Rt+1→t-1
S2.3、融合中间帧图像的前一帧图像特征Ft-1和正向联系信息Rt-1→t+1,得到由前往后的正向中间帧特征Ft-1→t;融合中间帧图像的后一帧图像特征Ft+1和反向联系信息Rt+1→t-1,得到由后往前的反向中间帧特征Ft+1→t;将正向中间帧特征Ft-1→t和反向中间帧特征Ft+1→t进行融合,具体为将正向中间帧特征Ft-1→t和反向中间帧特征Ft+1→t拼接再通过卷积计算,得到最终的中间帧特征Fmiddle,具体如下:
Ft-1→t=Ft-1+Rt-1→t+1
Ft+1→t=Ft+1+Rt+1→t-1
Fmiddle=Conv(Concate(Ft-1→t,Ft+1→t));
S2.4、对生成的最终的中间帧特征Fmiddle通过RDN模块进行特征学习,得到中间帧的特征信息Ft,再通过卷积计算将中间帧的特征信息转为图像信息,生成中间帧图像;中间帧图像和预处理得到的低帧率低分辨率视频序列按时间顺序拼接成高帧率低分辨率视频序列,即将中间帧图像插入对应的前一帧图像和后一帧图像之间。
4.根据权利要求3所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S2.2中,获取中间帧图像的前一帧图像特征到中间帧图像的后一帧图像特征的正向联系信息Rt-1→t+1,以及中间帧图像的后一帧图像特征到中间帧图像的前一帧图像特征的反向联系信息Rt+1→t-1,具体如下:
对前一帧图像的图像特征Ft-1进行卷积操作得到Transformer注意力机制的‘查询’:query(q1);
对后一帧图像的图像特征Ft+1进行分别进行两次卷积操作得到Transformer注意力机制‘键值对’:key(k1)和value(v1);
将得到的‘查询’q1、‘键值对’key(k1)和value(v1)分别进行分块展开操作;q1、k1、v1的大小都为fchannel×patchL×patchL,其中fchannel表示特征通道数;
对于每个大小为patchL×patchL的特征通道,将其分为n块,每块分辨率为patch×patch,
Figure FDA0003580979810000031
原本大小为patchL×patchL的每个通道特征可表示为n×patch×patch,由于总共有fchannel个特征通道,最终可转为n个维度为patch×patch×fchannel的特征;
通过Transformer注意力机制计算相邻帧图像特征的联系信息,对于每层Transformer具体过程为:通过softmax计算得到‘查询’query(q1)跟key(k1)之间的关系,以权重分布的形式对value(v1)进行计算,再通过卷积计算得到前一帧图像特征在后一帧图像特征上的响应关联Respon,具体数学表达式如下:
Figure FDA0003580979810000032
Respon=Conv(Attention(q1,k1,v1));
其中,dk表示输入的特征维度即patch×patch×fchannel
通过M层Transformer计算后,将Transformer输出的结果进行一次卷积计算作为前一帧图像特征到后一帧图像特征的联系信息Rt-1→t+1,具体如下:
Rt-1→t+1=Conv(Respon);
用同样的方法得到后一帧图像特征到前一帧图像特征的联系信息Rt+1→t-1
5.根据权利要求4所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S3中,构建的高帧率高分辨率视频序列生成模型中,基于Transformer注意力机制的时空域特征融合,重建高帧率高分辨率视频序列,包括以下步骤:
S3.1、提取视频序列的初始特征序列:利用卷积对步骤S2.4中得到的中间帧图像t提取初始特征,和步骤S2.1生成的低帧率低分辨率初始特征序列按时序拼接,对拼接后的高帧率低分辨率的序列特征通过卷积操作,得到最终的高帧率低分辨率初始特征序列F;
S3.2、使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征Rall
S3.3、将学习到的总时空域联系特征Rall通过重建模块得到重建特征Fh,并通过卷积计算增加重建特征Fh通道数目,并通过PixelShuffle方式将重建特征Fh加深的通道数转为重建特征Fh的宽度,即放大重建特征Fh的分辨率,特征分辨率放大r倍,得到上采样后的高分辨率特征;
S3.4、通过卷积操作将高分辨率特征转为图像信息,并将S2.4得到的高帧率低分辨率视频序列进行双线性插值放大;将两者相加得到最终的高帧率高分辨率视频序列。
6.根据权利要求5所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S3.2中,使用基于Transformer注意力机制学习高帧率低分辨率初始特征序列F的总时空域联系特征Rall,具体包括以下步骤:
S3.2.1、将高帧率低分辨率初始特征序列F特征划分为小尺度特征块,使用基于Transformer注意力机制提取小尺度特征块的时空域联系特征Rsmall
S3.2.2、将高帧率低分辨率初始特征序列F特征划分为大尺度特征块,使用基于Transformer注意力机制提取大尺度特征块时域联系特征Rlarge
S3.2.3、将时空域联系特征Rsmall和时域联系特征Rlarge相加得到总时空域联系特征Rall
7.根据权利要求6所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S3.2.1具体如下:
对步骤S3.1中得到的高帧率低分辨率初始特征序列F进行位置编码与卷积计算,得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value);将q,k,v的每个特征通道划分为ns个特征块;对于每个特征块,通过Transformer注意力机制,计算得到该特征块与同一帧图像特征上的ns-1个特征块的联系,以及该特征块同其他帧图像特征上的ns个特征块联系;将Transformer输出的结果进行卷积计算获得小尺度特征块的时空域联系特征Rsmall
8.根据权利要求6所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S3.2.2具体如下:
利用步骤S3.1中得到辨率的高帧率低分初始特征序列F进行位置编码与卷积计算,得到Transformer注意力机制的‘查询’q(query)以及‘键值对’k和v(key-value);将q,k,v的每个特征通道划分为nL个特征块;对于每个特征块,通过Transformer注意力机制,计算当前特征块与视频序列上的不同帧图像特征中与该特征块相同位置的特征块在时域上的联系;将Transformer输出的结果进行卷积计算获得大尺度特征块时域联系特征Rlarge
9.根据权力要求1~8任一项所述的基于Transformer的视频时空超分辨率方法,其特征在于,步骤S4包括以下步骤:
S4.1、构建基于Transformer的视频时空超分辨率模型,包括高帧率低分辨率视频序列生成模型和高帧率高分辨率视频序列生成模型。高帧率低分辨率视频序列生成模型接收低帧率低分辨率视频序列,输出高帧率低分辨率视频序列至高帧率高分辨率视频序列生成模型,高帧率高分辨率视频序列生成模型输出高帧率高分辨率视频序列,完成视频时空超分辨率重建;
S4.2、采用Charbonnier Loss,构建基于Transformer的视频时空超分辨率重建模型的损失函数Lcharbonnier,具体如下:
Figure FDA0003580979810000051
其中,
Figure FDA0003580979810000052
表示原始数据集中的高帧率高分辨率视频序列的第t帧,
Figure FDA0003580979810000053
表示基于Transformer的视频时空超分辨率模型生成的高帧率高分辨率的视频序列的第t帧;ε为常数,用于使基于Transformer的视频时空超分辨率模型训练稳定;
S4.3、根据原始数据集和训练数据集对基于Transformer的视频时空超分辨率模型进行训练,通过峰值信噪比(PSNR)和结构相似性指数(SSIM)对基于Transformer的视频时空超分辨率模型进行评价,得到训练好的基于Transformer的视频时空超分辨率模型。
10.一种计算机可读介质,处理器,其上存储有数据和计算机程序,其特征在于,该介质存储有训练权利要求1-8的图像数据,同时可以运行成程序,该程序执行权利要求9的基于Transformer的视频时空超分辨率方法。
CN202210346886.XA 2022-04-02 2022-04-02 基于Transformer的视频时空超分辨率方法 Pending CN114757828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210346886.XA CN114757828A (zh) 2022-04-02 2022-04-02 基于Transformer的视频时空超分辨率方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210346886.XA CN114757828A (zh) 2022-04-02 2022-04-02 基于Transformer的视频时空超分辨率方法

Publications (1)

Publication Number Publication Date
CN114757828A true CN114757828A (zh) 2022-07-15

Family

ID=82329544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210346886.XA Pending CN114757828A (zh) 2022-04-02 2022-04-02 基于Transformer的视频时空超分辨率方法

Country Status (1)

Country Link
CN (1) CN114757828A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012230A (zh) * 2023-01-17 2023-04-25 深圳大学 一种时空视频超分辨率方法、装置、设备及存储介质
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN117061826A (zh) * 2023-10-12 2023-11-14 深圳云天畅想信息科技有限公司 流媒体时空视频渲染方法、装置及计算机设备
WO2024110799A1 (ko) * 2022-11-24 2024-05-30 삼성전자주식회사 전자 장치 및 그 제어 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024110799A1 (ko) * 2022-11-24 2024-05-30 삼성전자주식회사 전자 장치 및 그 제어 방법
CN116012230A (zh) * 2023-01-17 2023-04-25 深圳大学 一种时空视频超分辨率方法、装置、设备及存储介质
CN116012230B (zh) * 2023-01-17 2023-09-29 深圳大学 一种时空视频超分辨率方法、装置、设备及存储介质
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN116596779B (zh) * 2023-04-24 2023-12-01 天津大学 基于Transformer的Raw视频去噪方法
CN117061826A (zh) * 2023-10-12 2023-11-14 深圳云天畅想信息科技有限公司 流媒体时空视频渲染方法、装置及计算机设备
CN117061826B (zh) * 2023-10-12 2024-02-02 深圳云天畅想信息科技有限公司 流媒体时空视频渲染方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN114757828A (zh) 基于Transformer的视频时空超分辨率方法
CN112801877B (zh) 一种视频帧的超分辨率重构方法
CN113139898B (zh) 基于频域分析和深度学习的光场图像超分辨率重建方法
CN110634105B (zh) 一种光流法和深度网络结合的视频高时空分辨率信号处理方法
CN115222601A (zh) 基于残差混合注意力网络的图像超分辨率重建模型及方法
CN110675321A (zh) 一种基于渐进式的深度残差网络的超分辨率图像重建方法
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
CN112270644A (zh) 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
CN112102163B (zh) 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法
CN110796622B (zh) 一种基于串联神经网络多层特征的图像比特增强方法
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN112381866B (zh) 一种基于注意力机制的视频比特增强方法
CN111932461A (zh) 一种基于卷积神经网络的自学习图像超分辨率重建方法及系统
CN113066022B (zh) 一种基于高效时空信息融合的视频比特增强方法
CN111489305B (zh) 基于强化学习的图像增强方法
CN114926336A (zh) 视频超分辨率重建方法、装置、计算机设备及存储介质
CN113469884A (zh) 基于数据仿真的视频超分辨方法、系统、设备及存储介质
CN114972024A (zh) 一种基于图表示学习的图像超分辨率重建装置及方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN112435165B (zh) 基于生成对抗网络的两阶段视频超分辨率重建方法
CN112862675A (zh) 时空超分辨率的视频增强方法和系统
CN116797541A (zh) 一种基于Transformer的肺部CT图像超分辨率重建方法
CN116668738A (zh) 一种视频时空超分辨率重构方法、装置及存储介质
CN112348745B (zh) 一种基于残差卷积网络的视频超分辨率重构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination