CN114092339B - 基于跨帧自注意力变换网络的时空视频超分辨率重建方法 - Google Patents
基于跨帧自注意力变换网络的时空视频超分辨率重建方法 Download PDFInfo
- Publication number
- CN114092339B CN114092339B CN202210076937.1A CN202210076937A CN114092339B CN 114092339 B CN114092339 B CN 114092339B CN 202210076937 A CN202210076937 A CN 202210076937A CN 114092339 B CN114092339 B CN 114092339B
- Authority
- CN
- China
- Prior art keywords
- frame
- cross
- self
- attention
- shallow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000009466 transformation Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000007476 Maximum Likelihood Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000013467 fragmentation Methods 0.000 claims description 4
- 238000006062 fragmentation reaction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法,包括以下步骤:采集连续图片序列,将其进行双三次插值降采样,并删除偶数帧,构成训练集;构建基于跨帧自注意力变换的时空视频超分辨率重建网络;利用训练集对基于跨帧自注意力变换网络进行训练;将低分辨率低帧率的连续图片序列输入所述训练完成的基于跨帧自注意力变换网络,获得高帧率高分辨率的连续图片序列。本发明能够通过一个端对端的神经网络同时实现空间和时间尺度的超分辨率,有效提高了对时空特征信息的利用,能够产生高帧率高分辨率的视频超分辨率重建效果。
Description
技术领域
本发明涉及计算机视觉技术领域,更具体的说是涉及一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法。
背景技术
超分辨率重建技术的目的是将低分辨率的图片重建成高分辨率的图片,是计算机视觉领域一个重要分支,该技术广泛应用于安防监控、医疗成像、视频转播、遥感等领域。视频超分辨率重建技术旨在通过提取当前帧和相邻帧的信息来对当前帧进行超分辨率重建。相较于单帧超分辨率重建技术,视频超分辨率重建技术在处理图像序列时的重建效果更为理想。
随着深度学习技术的发展,基于深度学习的视频超分辨率重建技术相较于传统方法往往能获得更深的特征信息。而这些信息具有时间和空间上的关联性,因此,通过端对端的网络实现时空视频超分辨率重建成为了可能。目前的时空超分辨率重建技术往往采用的是两阶段方式,即首先通过超分辨率重建技术对空间尺度进行超分重建,再通过插帧方式对之前的超分结果进行插帧实现时间尺度的超分辨率重建。这种两阶段的时空超分辨率重建方式都需要使用大量的计算资源,不利于现实中的应用场景。而且根据目前的算法发展,性能较好的算法多采用深度学习框架,而两阶段的时空超分辨重建方法往往需要对图片序列进行两次特征提取,这种操作造成了现有计算资源的浪费,而且会导致前后两种方法的特征语义不一致导致重建结果在某些场景出现一定模糊。
发明内容
本发明的目的在于提供一种于跨帧自注意力变换网络的时空视频超分辨率重建方法,采用端对端的时空视频超分辨率重建方法同时提高原视频序列的时间和空间分辨率。
实现本发明的技术解决方案为:一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法,包括以下步骤:
S1、采集连续图片序列作为原始图片序列,对其进行双三次插值降采样,并删除降采样后的序列的偶数帧,得到处理后的图片序列,处理后的图片序列与原始图片序列共同构成训练集。
S2、构建基于跨帧自注意力变换时空视频超分辨率重建网络,并对其进行训练,得到训练完成的基于跨帧自注意力变换网络,具体如下:
S23、分别将浅层特征图和碎片化,并附着时序编码,对应得到处理后相邻三帧浅层特征图和的编码特征图V、Q和K,利用跨帧自注意力变换网络相邻编码特征图Q和K做自相关处理,得到最大似然矩阵T。并以最大似然矩阵T为索引,在编码特征图V中搜索,搜索过程中采用不同的相关步长,对应获得不同尺度相似矩阵记为Lv1、Lv2和Lv3。
S25、更新卷积和权重,重复S21-S24直至收敛,得到训练完成的基于跨帧自注意力变换网络。
S3、利用训练好的基于跨帧自注意力变换网络对低分辨率低帧率的连续图片序列进行处理,获得高帧率高分辨率的连续图片序列。
本发明与现有技术相比,其显著优点在于:
(1)本发明公开提供了一种基于跨帧自注意力变换网络的时空视频超分辨率方法,该方法能够通过一个端对端的神经网络同时实现空间和时间尺度的超分辨率,有效提高了对时空特征信息的利用,能够产生高帧率高质量的视频重建效果。
(2)引入了深度跨帧自注意力机制,对相邻帧的特征图进行了相关性的计算,搜索到了对当前帧特征图重建的最优相邻帧特征图区域;利用多尺度重建模块,能有效利用深度跨帧自注意力机制所搜索到的对当前帧特征图重建的最优相邻帧特征图区域,由粗到细地生成当前帧图片。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图作简单地介绍,显而易见地,下面描述的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明基于跨帧自注意力变换网络的时空视频超分辨率重建方法的流程图。
图2为本发明基于跨帧自注意力变换时空视频超分辨率重建网络的构建训练流程图。
图3为本发明提供的基于跨帧自注意力变换网络的时空视频超分辨率重建方法的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合本设计实例对具体实施方式、以及本次发明的技术难点、发明点进行进一步介绍。
结合图1、图2和图3,本发明公开了一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法,包括以下步骤:
S1、采集连续图片序列作为原始图片序列,对其进行双三次插值降采样,并删除降采样后的序列的偶数帧,得到处理后的图片序列,处理后的图片序列与原始图片序列共同构成训练集。
为了进一步实施上述技术方案,S1中,采集连续图片序列作为原始图片序列,对其进行双三次插值降采样,并删除降采样后序列的偶数帧,得到处理后的图片序列,此时获得低分辨率低帧率和高分辨率高帧率的训练图片序列对,按照时间顺序,处理后的图片序列作为网络输入,原始图片序列作为网络输出。
S2、构建基于跨帧自注意力变换时空视频超分辨率重建网络,并对其进行训练,得到训练完成的基于跨帧自注意力变换网络,具体如下:
S22-1、通过常规卷积得到每个卷积点的可学习的参数偏移量Δx1、Δx2:
其中g代表常规卷积操作。
S22-2、利用可变形卷积算出每个采样点的偏移变量:
其中,Dconv代表可变形卷积;采样点为浅层特征图中的特征像素点、
需要说明的是,这里训练参数α和β实际为1×1,步长为1的二维卷积运算。
S23、分别将浅层特征图和碎片化,并附着时序编码,对应得到处理后相邻三帧浅层特征图和的编码特征图V、Q和K,利用跨帧自注意力变换网络相邻编码特征图Q和K做自相关处理,得到最大似然矩阵T。并以最大似然矩阵T为索引,在编码特征图V中搜索,搜索过程中采用不同的相关步长,对应获得不同尺度相似矩阵记为Lv1、Lv2和Lv3,具体如下:
S23-2、通过自注意力计算碎片的相关性ti,j:
其中,(·)代表自相关运算,qi,j为Q中的区域(i,j)的碎片,ki,j为K中的区域(i,j)的碎片,ti,j为最大似然矩阵T中区域(i,j)的相似性。
其中L1代表相关步长为1的特征索引搜索,L2代表相关步长为2的特征索引搜索,L4代表相关步长为4的特征索引搜索。
需要说明的是,在对特征图碎片化的过程中,特征图被碎片成16×16的尺寸大小,并附着余弦时序编码。为取得不同尺度的相似举证,分别采用1,2,4的步长,使其结果成2倍递增。
FLv2=f(f(FLv1)+Lv2)*T↑
FLv3=f(f(FLv2)+Lv3)*(T↑)↑
I=FLv1+FLv2+FLv3
其中f代表残差块运算,↑代表上采样。
需要说明的是,上述上采样过程均采用双三次插值的方式进行,每次放大系数为2倍。
S25、更新卷积和权重,重复S21-S24直至收敛,得到训练完成的基于跨帧自注意力变换网络。
S3、利用训练好的基于跨帧自注意力变换网络对低分辨率低帧率的连续图片序列进行处理,获得高帧率高分辨率的连续图片序列。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法,其特征在于,包括以下步骤:
S1、采集连续图片序列作为原始图片序列,对其进行双三次插值降采样,并删除降采样后的序列的偶数帧,得到处理后的图片序列,处理后的图片序列与原始图片序列共同构成训练集;
S2、构建跨帧自注意力变换网络,并对其进行训练,得到训练完成的跨帧自注意力变换网络,具体如下:
S22-1、通过常规卷积得到每个卷积点的可学习的参数偏移量Δx1、Δx2:
其中g代表常规卷积操作;
S22-2、利用可变形卷积算出每个采样点的偏移变量:
其中,Dconv代表可变形卷积;采样点为浅层特征图中的特征像素点;
S23、分别将浅层特征图和碎片化,并附着时序编码,对应得到处理后相邻三帧浅层特征图和的编码特征图V、Q和K,利用跨帧自注意力变换网络对相邻编码特征图Q和K做自相关处理,得到最大似然矩阵T;并以最大似然矩阵T为索引,在相邻一帧的浅层特征图中搜索,搜索过程中采用不同的相关步长,对应获得不同尺度相似矩阵记为Lv1、Lv2和Lv3;
S25、更新卷积和权重,重复S21-S24直至收敛,得到训练完成的跨帧自注意力变换网络;
S3、利用训练好的跨帧自注意力变换网络对低分辨率低帧率的连续图片序列进行处理,获得高帧率高分辨率的连续图片序列。
2.根据权利要求1所述的一种基于跨帧自注意力变换网络的时空视频超分辨率重建方法,其特征在于,分别将浅层特征图和碎片化,并附着时序编码,对应得到处理后相邻三帧浅层特征图和的编码特征图V、Q和K,利用跨帧自注意力变换网络对相邻编码特征图Q和K做自相关处理,得到最大似然矩阵T;并以最大似然矩阵T为索引,在相邻一帧的浅层特征图中搜索,搜索过程中采用不同的相关步长,对应获得不同尺度相似矩阵记为Lv1、Lv2和Lv3,具体如下:
S23-2、通过自注意力计算碎片的相关性ti,j:
其中,(·,·)代表自相关运算,qi,j为Q中的区域(i,j)的碎片,ki,j为K中的区域(i,j)的碎片,ti,j为最大似然矩阵T中区域(i,j)的相似性;
其中L1代表相关步长为1的特征索引搜索,L2代表相关步长为2的特征索引搜索,L4代表相关步长为4的特征索引搜索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210076937.1A CN114092339B (zh) | 2022-01-24 | 2022-01-24 | 基于跨帧自注意力变换网络的时空视频超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210076937.1A CN114092339B (zh) | 2022-01-24 | 2022-01-24 | 基于跨帧自注意力变换网络的时空视频超分辨率重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114092339A CN114092339A (zh) | 2022-02-25 |
CN114092339B true CN114092339B (zh) | 2022-05-20 |
Family
ID=80309178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210076937.1A Active CN114092339B (zh) | 2022-01-24 | 2022-01-24 | 基于跨帧自注意力变换网络的时空视频超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114092339B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230262259A1 (en) * | 2022-02-14 | 2023-08-17 | Microsoft Technology Licensing, Llc | Unified Space-Time Interpolation of Video Information |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750094A (zh) * | 2020-12-30 | 2021-05-04 | 合肥工业大学 | 一种视频处理方法及系统 |
CN112801877A (zh) * | 2021-02-08 | 2021-05-14 | 南京邮电大学 | 一种视频帧的超分辨率重构方法 |
CN113034380A (zh) * | 2021-02-09 | 2021-06-25 | 浙江大学 | 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置 |
CN113205456A (zh) * | 2021-04-30 | 2021-08-03 | 东北大学 | 一种面向实时视频会话业务的超分辨率重建方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859106B (zh) * | 2019-01-28 | 2022-07-05 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN112419153A (zh) * | 2020-11-23 | 2021-02-26 | 深圳供电局有限公司 | 图像超分辨率重建方法、装置、计算机设备和存储介质 |
CN112734644A (zh) * | 2021-01-19 | 2021-04-30 | 安徽工业大学 | 一种多个注意力结合光流的视频超分辨模型及方法 |
-
2022
- 2022-01-24 CN CN202210076937.1A patent/CN114092339B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750094A (zh) * | 2020-12-30 | 2021-05-04 | 合肥工业大学 | 一种视频处理方法及系统 |
CN112801877A (zh) * | 2021-02-08 | 2021-05-14 | 南京邮电大学 | 一种视频帧的超分辨率重构方法 |
CN113034380A (zh) * | 2021-02-09 | 2021-06-25 | 浙江大学 | 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置 |
CN113205456A (zh) * | 2021-04-30 | 2021-08-03 | 东北大学 | 一种面向实时视频会话业务的超分辨率重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114092339A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801877B (zh) | 一种视频帧的超分辨率重构方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN111161146B (zh) | 一种由粗糙到精细的单张图像超分辨率重建方法 | |
CN103455988B (zh) | 基于结构自相似性与稀疏表示的超分辨率图像重构方法 | |
CN109949217B (zh) | 基于残差学习和隐式运动补偿的视频超分辨率重建方法 | |
CN110570351A (zh) | 一种基于卷积稀疏编码的图像超分辨率重建方法 | |
CN111401379A (zh) | 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法 | |
CN114092339B (zh) | 基于跨帧自注意力变换网络的时空视频超分辨率重建方法 | |
CN115131675A (zh) | 一种基于参考影像纹理迁移的遥感影像压缩方法及系统 | |
CN114387161B (zh) | 一种视频超分辨率重建方法 | |
CN114757828A (zh) | 基于Transformer的视频时空超分辨率方法 | |
CN115731141A (zh) | 面向机动目标动态监测的天基遥感图像时空融合方法 | |
CN109615576A (zh) | 基于级联回归基学习的单帧图像超分辨重建方法 | |
CN113962882B (zh) | 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法 | |
CN114581762A (zh) | 一种基于多尺度条形池化和金字塔池化的道路提取方法 | |
CN117974909A (zh) | 一种双阶段多尺度的高光谱快照压缩成像图像重建方法 | |
CN112150356A (zh) | 基于级联框架的单幅压缩图像超分辨率重建方法 | |
CN104683818A (zh) | 基于双正交不变集多小波的图像压缩方法 | |
CN110766612A (zh) | 一种基于深度学习的图像超分辨率方法 | |
CN116485651A (zh) | 一种图像超分辨率重建方法 | |
CN115409695A (zh) | 基于深度特征融合网络的压缩视频超分辨率 | |
CN111246205B (zh) | 基于方向双四元数滤波器组的图像压缩方法 | |
CN115908144B (zh) | 基于随机小波注意力的图像处理方法、装置、设备及介质 | |
CN117196972B (zh) | 一种基于改进的Transformer的文档伪影去除方法 | |
CN117528085B (zh) | 一种基于智能特征聚类的视频压缩编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |