CN115496663A - 基于d3d卷积组内融合网络的视频超分辨率重建方法 - Google Patents

基于d3d卷积组内融合网络的视频超分辨率重建方法 Download PDF

Info

Publication number
CN115496663A
CN115496663A CN202211246421.3A CN202211246421A CN115496663A CN 115496663 A CN115496663 A CN 115496663A CN 202211246421 A CN202211246421 A CN 202211246421A CN 115496663 A CN115496663 A CN 115496663A
Authority
CN
China
Prior art keywords
video
resolution
convolution
group
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211246421.3A
Other languages
English (en)
Inventor
陈晓
荆茹韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211246421.3A priority Critical patent/CN115496663A/zh
Publication of CN115496663A publication Critical patent/CN115496663A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于D3D卷积组内融合网络的视频超分辨率重建方法,包括:获取待重建的低分辨率视频序列;将所述待重建的低分辨率视频序列输入测试训练好的视频超分辨率重建网络模型;模型输出得到视频超分辨率重建结果,即高分辨率视频序列;其中所述视频超分辨率重建网络模型包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块。提高视频帧的利用率,能够学习从当前输入特征图中获取偏移向量,可以整合时间和空间信息,在保持视频帧时间一致性的同时获取更为优良的重建性能。

Description

基于D3D卷积组内融合网络的视频超分辨率重建方法
技术领域
本发明涉及计算机视觉和深度学习技术领域,具体涉及一种基于D3D卷积组内融合网络的视频超分辨率重建方法。
背景技术:
超分辨率是指通过软件算法手段,从低分辨率图像中恢复出对应的高分辨率图像,具体可以细分为单图像超分辨率和视频超分辨率,随着移动互联网和通信技术的不断更新,视频超分辨率在遥感成像、全景视频、高清电视等领域有着广泛应用,同时,人们对更高清视频的追求让视频超分辨率得到了越来越多的关注。
视频超分辨率(Video Super—resolution,VSR)在某种程度上可以看作是单图像超分辨率的拓展,可以将视频划分为多个帧再利用单图像超分辨率原理对这些帧进行一对一的处理,从而得到高分辨率(High—resolution,HR)视频帧,但如果按照这样的方式进行超分辨重建,无法利用帧间运动信息,不能保留帧内时间相关性,从而导致视频帧出现伪影和干扰,重建效果不好。因此,近年来提出的基于深度学习的VSR重建方法的重点研究内容基本都为如何利用视频帧之间时空信息,探索高效的帧对齐方法。现有的VSR重建大多由对齐模块、特征提取与特征模块和重建模块组成。
在对齐模块中,光流法运用最广泛,它利用视频序列中像素在时域上的变化和相邻帧之间的相关性来找到上一帧跟当前帧之间的对应关系,从而计算出相邻帧之间物体的运动信息,这种基于显示运动补偿的方式在应对复杂运动或在有遮挡的情况下会导致较大的失真和误差,影响超分辨性能。而之后的采用动态上采样滤波器,利用隐式运动补偿估计视频帧之间的运动关系重建HR视频帧的方法虽然提高了估计视频帧之间运动信息的准确度,但上采样滤波器的大小直接决定了重建性能,因此计算速度不够理想。后来采用可变形卷积的方法虽然进一步利用了相邻帧之间的时空信息,但其在建模过程中都是先进行空间特征提取,再进行运动估计,无法充分利用相邻帧之间的时空相关性,影响重建性能和视觉效果。
发明内容
本发明针对目前视频超分辨时空信息利用不足的问题,提供一种基于D3D卷积组内融合网络的视频超分辨率重建方法,将输入的视频序列被重新排列为具有不同帧速率的若干组子序列,利用时间分组分层集成时间不同帧率的视频序列的帧间信息,提高视频帧的利用率,能够学习从当前输入特征图中获取偏移向量,可以整合时间和空间信息,在保持视频帧时间一致性的同时获取更为优良的重建性能。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
第一方面,提供一种基于D3D卷积组内融合网络的视频超分辨率重建方法,包括:
获取待重建的低分辨率视频序列;
将所述待重建的低分辨率视频序列输入测试训练好的视频超分辨率重建网络模型;
根据所述视频超分辨率重建网络模型的输出,得到视频超分辨率重建结果,即高分辨率视频序列;
其中所述视频超分辨率重建网络模型包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块;
所述时间分组模块:用于对输入的低分辨率视频序列根据帧速率的不同进行分组得到N组视频子序列;
所述C3D浅层特征提取模块:用于对时间分组模块分组后的视频子序列进行初步的特征提取和时间对齐得到视频特征F,并送入D3D卷积组内融合模块;
所述D3D卷积组内融合模块,用于利用空间特征提取器对视频特征进行空间特征提取得到空间特征,然后利用5个卷积核为3×3×3的D3D卷积残差块对空间特征进行时空特征融合,得到融合特征,利用二维密集块将融合特征进行组内群体特征提取,生成组内群体特征
Figure BDA0003886820460000031
所述组间注意力机制模块,用于对多个组内群体特征
Figure BDA0003886820460000032
进行时间注意力融合,生成注意力特征图Mn(x,y)j,并送入重建模块;
所述重建模块,用于对原始待重建的低分辨率视频序列进行双三次插值上采样生成原始视频残差图
Figure BDA0003886820460000033
将注意力特征图送入由六个级联的残差块和用于重建的亚像素卷积层,进行处理后生成相应的残差图Rt;将残差图Rt和原始视频残差图
Figure BDA0003886820460000034
进行相加,生成最终的高分辨率视频序列
Figure BDA0003886820460000035
在一些实施例中,所述视频超分辨率重建网络模型的训练方法包括:
获取低分辨率视频序列数据集;
利用所述数据集对所述视频超分辨率重建网络模型进行训练、测试,得到测试训练好的视频超分辨率重建网络模型。
在一些实施例中,所述视频超分辨率重建网络模型训练过程中的损失函数L1(x)为:
Figure BDA0003886820460000041
其中,x表示去权值和偏置参数的集合,i表示训练时的迭代次数,m表示训练视频帧的数量,
Figure BDA0003886820460000042
模型输出的高分辨率视频序列、
Figure BDA0003886820460000043
表示输入模型的低分辨率视频序列,F(.)表示生成高分辨率视频的预测值,||*||表示范数。
在一些实施例中,所述获取低分辨率视频序列数据集,包括:
数据集采用标准的数据集,或自己采集构建;
如果采用标准的vid4和数据集进行训练和测试;数据集包含calendar、city、foliage、walk这四个场景视频帧序列,每个场景包含41、34、49、47帧视频图像,对高分辨率视频帧利用标准差σ=1.6的高斯模糊进行四倍下采样,从而生成对应的低分辨率视频帧。
在一些实施例中,所述时间分组模块的处理过程,包括:
将相邻的2N帧根据到参考帧的时间距离划分为N个组,原始视频序列被重新排序为{G1,...Gn},n∈[i:N],其中
Figure BDA0003886820460000044
是由前一帧
Figure BDA0003886820460000045
参考帧
Figure BDA0003886820460000046
和后一帧
Figure BDA0003886820460000047
组成的子序列;其中L表示低分辨率视频序列的符号。
在一些实施例中,所述D3D卷积组内融合模块的构建方法,包括:
所述D3D卷积组内融合模块包括空间特征提取器、D3D卷积层和二维密集块;
空间特征提取器每个单元由一个3×3卷积层、一个批量归一化BN层和Relu激活函数组成,以C3D浅层特征提取模块提取得到的视频特征F为输入,经过处理输出空间特征
Figure BDA0003886820460000048
将空间特征
Figure BDA0003886820460000049
利用5个卷积核为3×3×3的D3D卷积残差块进行时空特征融合得到融合特征
Figure BDA00038868204600000410
将融合特征
Figure BDA0003886820460000051
送入二维密集块,通过在二维密集块中应用18个二维单元,进行组内群体特征提取,从而生成组内群体特征
Figure BDA0003886820460000052
在一些实施例中,所述C3D浅层特征提取模块的处理过程,包括:
1)对输入的特征x进行三维卷积核采样得到采样值;
2)通过函数w对采样值进行加权求和;
通过膨胀系数为1的3×3×3卷积核传递的特征,用以下公式表示:
Figure BDA0003886820460000053
其中,y(p0)表示生成的输出特征,输出特征中的一个位置可以用p0表示,pn表示在3×3×3卷积采样网络的第n个值,N表示迭代次数;
所述D3D卷积组内融合模块的D3D卷积残差块的处理过程,包括:
Figure BDA0003886820460000054
其中,Δpn表示3×3×3卷积采样网络中第n个值对应的偏移量;偏移量通常是小数,所以具体更精确的值需要通过双线性插值来生成。
在一些实施例中,所述组间注意力机制模块包括,
用于对组内群体特征
Figure BDA0003886820460000055
应用一个3×3卷积层后计算出一个通道的特征映射图
Figure BDA0003886820460000056
生成的特征映射图F1 a、F2 a、F3 a被进一步连接,沿着时间轴的softmax函数被应用于每个位置,跨越通道,从而计算出时间注意特征图M(x,y);
将每个组的中间图连起来,并且通过沿时间轴的softmax函数,计算出注意特征图M(x,y);
Figure BDA0003886820460000057
对于每个组的注意加权特征
Figure BDA0003886820460000061
可以由以下公式计算:
Figure BDA0003886820460000062
其中,Mn(x,y)j表示时间注意掩码在(x,y)j位置的权重,
Figure BDA0003886820460000063
表示组内群体特征,⊙表示对应元素逐个相乘。
第二方面,本发明提供了一种基于D3D卷积组内融合网络的视频超分辨率重建装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
有益效果:本发明提供的一种基于D3D卷积组内融合网络的视频超分辨率重建方法,具有以下优点:
(1)利用隐式分层的方式处理视频帧之间的各种运动,从而通过利用不同帧率间的互补信息来恢复参考帧的缺失细节,并自适应地从不同帧率的组中借用信息,整合了不同时间距离的相邻帧,且每个组的参考帧可以引导网络模型从相邻帧中提取更有益的信息,让后续组内融合模块的信息提取和融合变得更加高效。
(2)将可变形卷积与C3D(Convolution 3D,C3D)结合实现可变形三维卷积,将其加入组间融合阶段,从而能够自适应地进行运动补偿,时空信息得以高效开发和利用。
(3)将时间注意力运用于深层组间融合模块,整合经过特征提取后的不同时间组的信息,为后续重建模块保留更多的高频信息,获得更为优质的峰值信噪比和结构相似性。
附图说明
图1为本发明实施例中方法的总体流程图。
图2为本发明实施例中基于D3D卷积组内融合的视频超分辨率重建网络模型图。
图3为本发明实施例中D3D卷积组内融合模块示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式进一步阐述本发明。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
一种基于D3D卷积组内融合网络的视频超分辨率重建方法,包括:
获取待重建的低分辨率视频序列;
将所述待重建的低分辨率视频序列输入测试训练好的视频超分辨率重建网络模型;
根据所述视频超分辨率重建网络模型的输出,得到视频超分辨率重建结果,即高分辨率视频序列;
其中所述视频超分辨率重建网络模型包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块;
所述时间分组模块:用于对输入的低分辨率视频序列根据帧速率的不同进行分组得到N组视频子序列;
所述C3D浅层特征提取模块:用于对时间分组模块分组后的视频子序列进行初步的特征提取和时间对齐得到视频特征F,并送入D3D卷积组内融合模块;
所述D3D卷积组内融合模块,用于利用空间特征提取器对视频特征进行空间特征提取得到空间特征,然后利用5个卷积核为3×3×3的D3D卷积残差块对空间特征进行时空特征融合,得到融合特征,利用二维密集块将融合特征进行组内群体特征提取,生成组内群体特征
Figure BDA0003886820460000081
所述组间注意力机制模块,用于对组内群体特征
Figure BDA0003886820460000082
应用一个3×3卷积层后可以计算出一个通道的特征映射图
Figure BDA0003886820460000083
生成的特征映射图F1 a、F2 a、F3 a被进一步连接,沿着时间轴的softmax函数被应用于每个位置,跨越通道,从而计算出时间注意特征图Mn(x,y)j
对多个组内群体特征
Figure BDA0003886820460000084
进行时间注意力融合,生成注意力特征图Mn(x,y)j,并送入重建模块;
所述重建模块,用于对原始待重建的低分辨率视频序列进行双三次插值上采样生成原始视频残差图
Figure BDA0003886820460000091
将注意力特征图送入由六个级联的残差块和用于重建的亚像素卷积层,进行处理后生成相应的残差图Rt;将残差图Rt和原始视频残差图
Figure BDA0003886820460000092
进行相加,生成最终的高分辨率视频序列
Figure BDA0003886820460000093
在一些实施例中,所述视频超分辨率重建网络模型的训练方法包括:
获取低分辨率视频序列数据集;
利用所述数据集对所述视频超分辨率重建网络模型进行训练、测试,得到测试训练好的视频超分辨率重建网络模型。
在一些实施例中,所述视频超分辨率重建网络模型训练过程中的损失函数L1(x)为:
Figure BDA0003886820460000094
其中,x表示去权值和偏置参数的集合,i表示训练时的迭代次数,m表示训练视频帧的数量,
Figure BDA0003886820460000095
模型输出的高分辨率视频序列、
Figure BDA0003886820460000096
表示输入模型的低分辨率视频序列,F(.)表示生成高分辨率视频的预测值,||*||表示范数。
在一些实施例中,如图1所示,一种基于D3D卷积组内融合网络的图像超分辨率重建方法,包括如下步骤:
步骤1,建立视频数据集:
数据集可以采用标准的数据集,也可以自己采集构建。比如采用标准的vid4和数据集进行训练和测试。该数据集包含calendar、city、foliage、walk这四个场景视频帧序列,每个场景包含41、34、49、47帧视频图像,对高分辨率视频帧利用标准差σ=1.6的高斯模糊进行四倍下采样,从而生成对应的低分辨率视频帧。
步骤2,构建视频超分辨率网络模型,如图2所示,所述的网络结构包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块,包括如下步骤:
步骤2.1,构建时间分组模块:
将相邻的2N帧根据到参考帧的时间距离划分为N个组,原始序列被重新排序为{G1,...Gn},n∈[i:N],其中
Figure BDA0003886820460000101
是由前一帧
Figure BDA0003886820460000102
参考帧
Figure BDA0003886820460000103
和后一帧
Figure BDA0003886820460000104
组成的子序列。以输入的7帧视频序列
Figure BDA0003886820460000105
为例,
Figure BDA0003886820460000106
代表参考帧,其他帧为相邻帧,将这7帧分为三组,具体可根据帧速率的不同分为
Figure BDA0003886820460000107
Figure BDA0003886820460000108
这三个组。
步骤2.2,构建C3D浅层特征提取与D3D卷积层;
先通过C3D卷积对上述按时间分组后的视频帧进行初步特征提取和时间对齐,再将提取后的特征图送入D3D组内融合模块,采用可变形三维卷积(D3D)进行特征融合,进一步进行时间对齐,输入后续的深层融合模块。D3D卷积的构造方法如下所示:
首先构造C3D卷积,具体的实现方式可以分为以下两个步骤:1)对输入特征x进行三维卷积核采样2)通过函数w对采样值进行加权求和。通过膨胀系数为1的3×3×3卷积核传递的特征可以用以下公式表示:
Figure BDA0003886820460000109
其中,输出特征中的一个位置可以用p0表示,pn表示在3×3×3卷积采样网络的第n个值。
然后根据C3D卷积构造D3D卷积,将采样网络的大小设置为N=27。大小为C×T×W×H的输入特征首先被输入到C3D来生成大小为2N×T×W×H的偏移特性。对于二维空间变形来说,这些偏移特征的通道数量一般设定为2N,然后再通过学习到的偏移量来引导普通C3D采样网络进行空间变形,进而生成D3D采样网络,最后再利用D3D采样网络生成输出特征。上述流程可用以下公式表示:
Figure BDA0003886820460000111
其中,Δpn表示3×3×3卷积采样网络中第n个值对应的偏移量。偏移量通常是小数,所以具体更精确的值需要通过双线性插值来生成。
步骤2.3,构建D3D卷积组内融合模块;
在该模块中每个分组都将部署一个组内融合模块。空所述D3D卷积组内融合模块包括空间特征提取器、D3D卷积层和二维密集块;
空间特征提取器每个单元由一个3×3卷积层、一个批量归一化BN层和Relu激活函数组成,以C3D浅层特征提取模块提取得到的视频特征F为输入,经过处理输出空间特征
Figure BDA0003886820460000112
所有的卷积层都有合适的膨胀率来模拟各个分组独有的帧间运动方式,且每组的帧率决定了卷积层的膨胀率,帧与帧之间时间相差大的运动水平就大,相差小的运动水平就小。
将空间特征
Figure BDA0003886820460000113
利用5个卷积核为3×3×3的D3D卷积残差块进行时空特征融合得到融合特征
Figure BDA0003886820460000114
将融合特征
Figure BDA0003886820460000115
送入二维密集块,通过在二维密集块中应用18个二维单元,进行组内群体特征提取,从而生成组内群体特征
Figure BDA0003886820460000116
组内帧间信息得到深度融合,时空信息得以高效利用。
步骤2.4,构建组间注意力机制模块;
对于每一个分组,在相应的特征图
Figure BDA0003886820460000117
上应用一个3×3卷积层后可以计算出一个通道的特征映射图
Figure BDA0003886820460000121
之后,这些生成的特征映射图F1 a、F2 a、F3 a被进一步连接,沿着时间轴的softmax函数被应用于每个位置,跨越通道,从而计算出时间注意特征图。
将每个组的中间图连起来,并且通过沿时间轴的softmax函数,计算出注意特征图M(x,y):
Figure BDA0003886820460000122
对于每个组的注意加权特征
Figure BDA0003886820460000123
可以由以下公式计算:
Figure BDA0003886820460000124
其中,Mn(x,y)j表示时间注意掩码在(x,y)j位置的权重,
Figure BDA0003886820460000125
表示在组内融合模块中产生的组内群体特征,⊙表示对应元素逐个相乘。
在计算出注意特征图后,将这些特征图沿时间轴连接起来,并将其输入到一个三维密集块中,同时在三维密集块的末端插入一个包含1×3×3卷积核的卷积层,来减少通道。然后在下面放置一个二维密集块进行进一步的融合。
步骤2.5,构建重建模块:
将注意力特征图送入由六个级联的残差块和用于重建的亚像素卷积层,进行处理后生成相应的残差图Rt,同时和通过双三次插值上采样生成的原始视频残差图
Figure BDA0003886820460000126
进行相加,生成最终的高分辨率视频帧
Figure BDA0003886820460000127
公式如下:
Figure BDA0003886820460000128
步骤3,训练基于D3D卷积组内融合模块的视频超分辨率网络模型;
在训练过程中,通过以0.5的概率翻转和旋转对训练数据进行扩充。网络采用7个相邻的低分辨率帧作为输入。该模型由像素级L1损耗监督,并使用Adam优化器进行优化,其中β1=0.9,β2=0.997。训练时,权重衰减设置为5×10-4。学习速率最初设置为10-3,之后设置每10次迭代将学习率乘以0.9,直到迭代300次。mini-batch的大小设置为64。
步骤4,测试训练数据,重建视频帧序列。
将处理好的测试vid4数据集输入进训练好的网络,采用常用的图像评价指标——峰值信噪比(PSNR)和结构相似度指数(SSIM),对重建后的图像进行定量分析,从而衡量VSR的重建性能。此外,我们使用参数量Params,网络复杂度Flops和运行时间Times来衡量网络性能。
为了验证本方法的有效性,在x4方法倍数上,将该方法与现有先进的7种视频超分辨率方法进行比较,实验数据表明,在vid4数据集上,本方法的PSNR和SSIM值优于其他模型,在可视化结果中,该网络模型恢复出的视频图像能显示出较多的纹理信息,可以较为清晰地看到图像的边缘信息,图像分辨率明显提升。
实施例2
第二方面,本实施例提供了一种基于D3D卷积组内融合网络的视频超分辨率重建装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (10)

1.一种基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述方法包括:
获取待重建的低分辨率视频序列;
将所述待重建的低分辨率视频序列输入测试训练好的视频超分辨率重建网络模型;
根据所述视频超分辨率重建网络模型的输出,得到视频超分辨率重建结果,即高分辨率视频序列;
其中所述视频超分辨率重建网络模型包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块;
所述时间分组模块:用于对输入的低分辨率视频序列根据帧速率的不同进行分组得到N组视频子序列;
所述C3D浅层特征提取模块:用于对时间分组模块分组后的视频子序列进行初步的特征提取和时间对齐得到视频特征F,并送入D3D卷积组内融合模块;
所述D3D卷积组内融合模块,用于利用空间特征提取器对视频特征进行空间特征提取得到空间特征,然后利用5个卷积核为3×3×3的D3D卷积残差块对空间特征进行时空特征融合,得到融合特征,利用二维密集块将融合特征进行组内群体特征提取,生成组内群体特征
Figure FDA0003886820450000011
所述组间注意力机制模块,用于对多个组内群体特征
Figure FDA0003886820450000012
进行时间注意力融合,生成注意力特征图Mn(x,y)j,并送入重建模块;
所述重建模块,用于对原始待重建的低分辨率视频序列进行双三次插值上采样生成原始视频残差图
Figure FDA0003886820450000013
将注意力特征图送入由六个级联的残差块和用于重建的亚像素卷积层,进行处理后生成相应的残差图Rt;将残差图Rt和原始视频残差图
Figure FDA0003886820450000021
进行相加,生成最终的高分辨率视频序列
Figure FDA0003886820450000022
2.根据权利要求1所述的基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述视频超分辨率重建网络模型的训练方法包括:
获取低分辨率视频序列数据集;
利用所述数据集对所述视频超分辨率重建网络模型进行训练、测试,得到测试训练好的视频超分辨率重建网络模型。
3.根据权利要求2所述的基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述视频超分辨率重建网络模型训练过程中的损失函数L1(x)为:
Figure FDA0003886820450000023
其中,x表示去权值和偏置参数的集合,i表示训练时的迭代次数,m表示训练视频帧的数量,
Figure FDA0003886820450000024
模型输出的高分辨率视频序列、
Figure FDA0003886820450000025
表示输入模型的低分辨率视频序列,F(.)表示生成高分辨率视频的预测值,||*||表示范数。
4.根据权利要求2所述的基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述获取低分辨率视频序列数据集,包括:
数据集采用标准的数据集,或自己采集构建;
如果采用标准的vid4和数据集进行训练和测试;数据集包含calendar、city、foliage、walk这四个场景视频帧序列,每个场景包含41、34、49、47帧视频图像,对高分辨率视频帧利用标准差σ=1.6的高斯模糊进行四倍下采样,从而生成对应的低分辨率视频帧。
5.根据权利要求1所述的基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述时间分组模块的处理过程,包括:
将相邻的2N帧根据到参考帧的时间距离划分为N个组,原始视频序列被重新排序为{G1,...Gn},n∈[i:N],其中
Figure FDA0003886820450000031
是由前一帧
Figure FDA0003886820450000032
参考帧
Figure FDA0003886820450000033
和后一帧
Figure FDA0003886820450000034
组成的子序列;其中L表示低分辨率视频序列的符号。
6.根据权利要求1所述的基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述D3D卷积组内融合模块的构建方法,包括:
所述D3D卷积组内融合模块包括空间特征提取器、D3D卷积层和二维密集块;
空间特征提取器每个单元由一个3×3卷积层、一个批量归一化BN层和Relu激活函数组成,以C3D浅层特征提取模块提取得到的视频特征F为输入,经过处理输出空间特征
Figure FDA0003886820450000035
将空间特征
Figure FDA0003886820450000036
利用5个卷积核为3×3×3的D3D卷积残差块进行时空特征融合得到融合特征
Figure FDA0003886820450000037
将融合特征
Figure FDA0003886820450000038
送入二维密集块,通过在二维密集块中应用18个二维单元,进行组内群体特征提取,从而生成组内群体特征
Figure FDA0003886820450000039
7.根据权利要求1所述的基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述C3D浅层特征提取模块的处理过程,包括:
1)对输入的特征x进行三维卷积核采样得到采样值;
2)通过函数w对采样值进行加权求和;
通过膨胀系数为1的3×3×3卷积核传递的特征,用以下公式表示:
Figure FDA00038868204500000310
其中,y(p0)表示生成的输出特征,输出特征中的一个位置可以用p0表示,pn表示在3×3×3卷积采样网络的第n个值,N表示迭代次数;
所述D3D卷积组内融合模块的D3D卷积残差块的处理过程,包括:
Figure FDA0003886820450000041
其中,Δpn表示3×3×3卷积采样网络中第n个值对应的偏移量;偏移量通常是小数,所以具体更精确的值需要通过双线性插值来生成。
8.根据权利要求1所述的基于D3D卷积组内融合网络的视频超分辨率重建方法,其特征在于,所述组间注意力机制模块包括,
用于对组内群体特征
Figure FDA0003886820450000042
应用一个3×3卷积层后计算出一个通道的特征映射图
Figure FDA0003886820450000043
生成的特征映射图F1 a
Figure FDA0003886820450000044
被进一步连接,沿着时间轴的softmax函数被应用于每个位置,跨越通道,从而计算出时间注意特征图M(x,y);
将每个组的中间图连起来,并且通过沿时间轴的softmax函数,计算出注意特征图M(x,y);
Figure FDA0003886820450000045
对于每个组的注意加权特征
Figure FDA0003886820450000046
可以由以下公式计算:
Figure FDA0003886820450000047
其中,Mn(x,y)j表示时间注意掩码在(x,y)j位置的权重,
Figure FDA0003886820450000048
表示组内群体特征,⊙表示对应元素逐个相乘。
9.一种基于D3D卷积组内融合网络的视频超分辨率重建装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN202211246421.3A 2022-10-12 2022-10-12 基于d3d卷积组内融合网络的视频超分辨率重建方法 Pending CN115496663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211246421.3A CN115496663A (zh) 2022-10-12 2022-10-12 基于d3d卷积组内融合网络的视频超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211246421.3A CN115496663A (zh) 2022-10-12 2022-10-12 基于d3d卷积组内融合网络的视频超分辨率重建方法

Publications (1)

Publication Number Publication Date
CN115496663A true CN115496663A (zh) 2022-12-20

Family

ID=84473576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211246421.3A Pending CN115496663A (zh) 2022-10-12 2022-10-12 基于d3d卷积组内融合网络的视频超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN115496663A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012230A (zh) * 2023-01-17 2023-04-25 深圳大学 一种时空视频超分辨率方法、装置、设备及存储介质
CN117291808A (zh) * 2023-11-27 2023-12-26 浙江优众新材料科技有限公司 一种基于流先验与极偏补偿的光场图像超分辨处理方法
CN117830099A (zh) * 2023-12-27 2024-04-05 北京智象未来科技有限公司 视频超分辨方法、装置、设备、存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012230A (zh) * 2023-01-17 2023-04-25 深圳大学 一种时空视频超分辨率方法、装置、设备及存储介质
CN116012230B (zh) * 2023-01-17 2023-09-29 深圳大学 一种时空视频超分辨率方法、装置、设备及存储介质
CN117291808A (zh) * 2023-11-27 2023-12-26 浙江优众新材料科技有限公司 一种基于流先验与极偏补偿的光场图像超分辨处理方法
CN117291808B (zh) * 2023-11-27 2024-02-20 浙江优众新材料科技有限公司 一种基于流先验与极偏补偿的光场图像超分辨处理方法
CN117830099A (zh) * 2023-12-27 2024-04-05 北京智象未来科技有限公司 视频超分辨方法、装置、设备、存储介质
CN117830099B (zh) * 2023-12-27 2024-10-18 北京智象未来科技有限公司 视频超分辨方法、装置、设备、存储介质

Similar Documents

Publication Publication Date Title
CN111062872B (zh) 一种基于边缘检测的图像超分辨率重建方法及系统
CN111898701B (zh) 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN115496663A (zh) 基于d3d卷积组内融合网络的视频超分辨率重建方法
CN110675321A (zh) 一种基于渐进式的深度残差网络的超分辨率图像重建方法
CN111598778B (zh) 一种绝缘子图像超分辨率重建方法
CN111784578A (zh) 图像处理、模型训练方法及装置、设备、存储介质
CN111861884B (zh) 一种基于深度学习的卫星云图超分辨率重建方法
CN111127325B (zh) 基于循环神经网络的卫星视频超分辨率重建方法及系统
CN112580473B (zh) 一种融合运动特征的视频超分辨率重构方法
CN111626308B (zh) 一种基于轻量卷积神经网络的实时光流估计方法
CN114549308B (zh) 面向感知的具有大感受野的图像超分辨率重建方法及系统
CN109214989A (zh) 基于多方向特征预测先验的单幅图像超分辨率重建方法
CN110942484B (zh) 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN112529776B (zh) 图像处理模型的训练方法、图像处理方法及装置
Vu et al. Perception-enhanced image super-resolution via relativistic generative adversarial networks
CN113610912B (zh) 三维场景重建中低分辨率图像单目深度估计系统及方法
CN115880158A (zh) 一种基于变分自编码的盲图像超分辨率重建方法及系统
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
CN113469884A (zh) 基于数据仿真的视频超分辨方法、系统、设备及存储介质
CN116468605A (zh) 基于时空分层掩膜注意力融合的视频超分辨率重建方法
CN112598604A (zh) 一种盲脸复原方法及系统
CN110047038B (zh) 一种基于层级递进网络的单图像超分辨重建方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN113674154B (zh) 一种基于生成对抗网络的单幅图像超分辨率重建方法及系统
CN113393435B (zh) 一种基于动态上下文感知滤波网络的视频显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination