CN115496663A

CN115496663A - 基于d3d卷积组内融合网络的视频超分辨率重建方法

Info

Publication number: CN115496663A
Application number: CN202211246421.3A
Authority: CN
Inventors: 陈晓; 荆茹韵
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-20

Abstract

本发明公开了一种基于D3D卷积组内融合网络的视频超分辨率重建方法，包括：获取待重建的低分辨率视频序列；将所述待重建的低分辨率视频序列输入测试训练好的视频超分辨率重建网络模型；模型输出得到视频超分辨率重建结果，即高分辨率视频序列；其中所述视频超分辨率重建网络模型包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块。提高视频帧的利用率，能够学习从当前输入特征图中获取偏移向量，可以整合时间和空间信息，在保持视频帧时间一致性的同时获取更为优良的重建性能。

Description

基于D3D卷积组内融合网络的视频超分辨率重建方法

技术领域

本发明涉及计算机视觉和深度学习技术领域，具体涉及一种基于D3D卷积组内融合网络的视频超分辨率重建方法。

背景技术：

超分辨率是指通过软件算法手段，从低分辨率图像中恢复出对应的高分辨率图像，具体可以细分为单图像超分辨率和视频超分辨率，随着移动互联网和通信技术的不断更新，视频超分辨率在遥感成像、全景视频、高清电视等领域有着广泛应用，同时，人们对更高清视频的追求让视频超分辨率得到了越来越多的关注。

视频超分辨率(Video Super—resolution,VSR)在某种程度上可以看作是单图像超分辨率的拓展，可以将视频划分为多个帧再利用单图像超分辨率原理对这些帧进行一对一的处理，从而得到高分辨率(High—resolution，HR)视频帧，但如果按照这样的方式进行超分辨重建，无法利用帧间运动信息，不能保留帧内时间相关性，从而导致视频帧出现伪影和干扰，重建效果不好。因此，近年来提出的基于深度学习的VSR重建方法的重点研究内容基本都为如何利用视频帧之间时空信息，探索高效的帧对齐方法。现有的VSR重建大多由对齐模块、特征提取与特征模块和重建模块组成。

在对齐模块中，光流法运用最广泛，它利用视频序列中像素在时域上的变化和相邻帧之间的相关性来找到上一帧跟当前帧之间的对应关系，从而计算出相邻帧之间物体的运动信息，这种基于显示运动补偿的方式在应对复杂运动或在有遮挡的情况下会导致较大的失真和误差，影响超分辨性能。而之后的采用动态上采样滤波器，利用隐式运动补偿估计视频帧之间的运动关系重建HR视频帧的方法虽然提高了估计视频帧之间运动信息的准确度，但上采样滤波器的大小直接决定了重建性能，因此计算速度不够理想。后来采用可变形卷积的方法虽然进一步利用了相邻帧之间的时空信息，但其在建模过程中都是先进行空间特征提取，再进行运动估计，无法充分利用相邻帧之间的时空相关性，影响重建性能和视觉效果。

发明内容

本发明针对目前视频超分辨时空信息利用不足的问题，提供一种基于D3D卷积组内融合网络的视频超分辨率重建方法，将输入的视频序列被重新排列为具有不同帧速率的若干组子序列，利用时间分组分层集成时间不同帧率的视频序列的帧间信息，提高视频帧的利用率，能够学习从当前输入特征图中获取偏移向量，可以整合时间和空间信息，在保持视频帧时间一致性的同时获取更为优良的重建性能。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，提供一种基于D3D卷积组内融合网络的视频超分辨率重建方法，包括：

获取待重建的低分辨率视频序列；

将所述待重建的低分辨率视频序列输入测试训练好的视频超分辨率重建网络模型；

根据所述视频超分辨率重建网络模型的输出，得到视频超分辨率重建结果，即高分辨率视频序列；

其中所述视频超分辨率重建网络模型包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块；

所述时间分组模块：用于对输入的低分辨率视频序列根据帧速率的不同进行分组得到N组视频子序列；

所述C3D浅层特征提取模块：用于对时间分组模块分组后的视频子序列进行初步的特征提取和时间对齐得到视频特征F，并送入D3D卷积组内融合模块；

所述D3D卷积组内融合模块，用于利用空间特征提取器对视频特征进行空间特征提取得到空间特征，然后利用5个卷积核为3×3×3的D3D卷积残差块对空间特征进行时空特征融合，得到融合特征，利用二维密集块将融合特征进行组内群体特征提取，生成组内群体特征

所述组间注意力机制模块，用于对多个组内群体特征

进行时间注意力融合，生成注意力特征图M_n(x,y)_j，并送入重建模块；

所述重建模块，用于对原始待重建的低分辨率视频序列进行双三次插值上采样生成原始视频残差图

将注意力特征图送入由六个级联的残差块和用于重建的亚像素卷积层，进行处理后生成相应的残差图R_t；将残差图R_t和原始视频残差图

进行相加，生成最终的高分辨率视频序列

在一些实施例中，所述视频超分辨率重建网络模型的训练方法包括：

获取低分辨率视频序列数据集；

利用所述数据集对所述视频超分辨率重建网络模型进行训练、测试，得到测试训练好的视频超分辨率重建网络模型。

在一些实施例中，所述视频超分辨率重建网络模型训练过程中的损失函数L₁(x)为：

其中，x表示去权值和偏置参数的集合，i表示训练时的迭代次数，m表示训练视频帧的数量，

模型输出的高分辨率视频序列、

表示输入模型的低分辨率视频序列，F(.)表示生成高分辨率视频的预测值，||*||表示范数。

在一些实施例中，所述获取低分辨率视频序列数据集，包括：

数据集采用标准的数据集，或自己采集构建；

如果采用标准的vid4和数据集进行训练和测试；数据集包含calendar、city、foliage、walk这四个场景视频帧序列，每个场景包含41、34、49、47帧视频图像，对高分辨率视频帧利用标准差σ＝1.6的高斯模糊进行四倍下采样，从而生成对应的低分辨率视频帧。

在一些实施例中，所述时间分组模块的处理过程，包括：

将相邻的2N帧根据到参考帧的时间距离划分为N个组，原始视频序列被重新排序为{G₁,...G_n}，n∈[i:N]，其中

是由前一帧

参考帧

和后一帧

组成的子序列；其中L表示低分辨率视频序列的符号。

在一些实施例中，所述D3D卷积组内融合模块的构建方法，包括：

所述D3D卷积组内融合模块包括空间特征提取器、D3D卷积层和二维密集块；

空间特征提取器每个单元由一个3×3卷积层、一个批量归一化BN层和Relu激活函数组成，以C3D浅层特征提取模块提取得到的视频特征F为输入，经过处理输出空间特征

将空间特征

利用5个卷积核为3×3×3的D3D卷积残差块进行时空特征融合得到融合特征

将融合特征

送入二维密集块，通过在二维密集块中应用18个二维单元，进行组内群体特征提取，从而生成组内群体特征

在一些实施例中，所述C3D浅层特征提取模块的处理过程，包括：

1)对输入的特征x进行三维卷积核采样得到采样值；

2)通过函数w对采样值进行加权求和；

通过膨胀系数为1的3×3×3卷积核传递的特征，用以下公式表示：

其中，y(p₀)表示生成的输出特征，输出特征中的一个位置可以用p₀表示，p_n表示在3×3×3卷积采样网络的第n个值，N表示迭代次数；

所述D3D卷积组内融合模块的D3D卷积残差块的处理过程，包括：

其中，Δp_n表示3×3×3卷积采样网络中第n个值对应的偏移量；偏移量通常是小数，所以具体更精确的值需要通过双线性插值来生成。

在一些实施例中，所述组间注意力机制模块包括，

用于对组内群体特征

应用一个3×3卷积层后计算出一个通道的特征映射图

生成的特征映射图F₁ ^a、F₂ ^a、F₃ ^a被进一步连接，沿着时间轴的softmax函数被应用于每个位置，跨越通道，从而计算出时间注意特征图M(x,y)；

将每个组的中间图连起来，并且通过沿时间轴的softmax函数，计算出注意特征图M(x,y)；

对于每个组的注意加权特征

可以由以下公式计算：

其中，M_n(x,y)_j表示时间注意掩码在(x,y)_j位置的权重，

表示组内群体特征，⊙表示对应元素逐个相乘。

第二方面，本发明提供了一种基于D3D卷积组内融合网络的视频超分辨率重建装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

有益效果：本发明提供的一种基于D3D卷积组内融合网络的视频超分辨率重建方法，具有以下优点：

(1)利用隐式分层的方式处理视频帧之间的各种运动，从而通过利用不同帧率间的互补信息来恢复参考帧的缺失细节，并自适应地从不同帧率的组中借用信息，整合了不同时间距离的相邻帧，且每个组的参考帧可以引导网络模型从相邻帧中提取更有益的信息，让后续组内融合模块的信息提取和融合变得更加高效。

(2)将可变形卷积与C3D(Convolution 3D,C3D)结合实现可变形三维卷积，将其加入组间融合阶段，从而能够自适应地进行运动补偿，时空信息得以高效开发和利用。

(3)将时间注意力运用于深层组间融合模块，整合经过特征提取后的不同时间组的信息，为后续重建模块保留更多的高频信息，获得更为优质的峰值信噪比和结构相似性。

附图说明

图1为本发明实施例中方法的总体流程图。

图2为本发明实施例中基于D3D卷积组内融合的视频超分辨率重建网络模型图。

图3为本发明实施例中D3D卷积组内融合模块示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式进一步阐述本发明。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

一种基于D3D卷积组内融合网络的视频超分辨率重建方法，包括：

获取待重建的低分辨率视频序列；

所述组间注意力机制模块，用于对组内群体特征

应用一个3×3卷积层后可以计算出一个通道的特征映射图

生成的特征映射图F₁ ^a、F₂ ^a、F₃ ^a被进一步连接，沿着时间轴的softmax函数被应用于每个位置，跨越通道，从而计算出时间注意特征图M_n(x,y)_j；

对多个组内群体特征

进行相加，生成最终的高分辨率视频序列

获取低分辨率视频序列数据集；

模型输出的高分辨率视频序列、

在一些实施例中，如图1所示，一种基于D3D卷积组内融合网络的图像超分辨率重建方法，包括如下步骤：

步骤1，建立视频数据集：

数据集可以采用标准的数据集，也可以自己采集构建。比如采用标准的vid4和数据集进行训练和测试。该数据集包含calendar、city、foliage、walk这四个场景视频帧序列，每个场景包含41、34、49、47帧视频图像，对高分辨率视频帧利用标准差σ＝1.6的高斯模糊进行四倍下采样，从而生成对应的低分辨率视频帧。

步骤2，构建视频超分辨率网络模型，如图2所示，所述的网络结构包括时间分组模块、C3D浅层特征提取模块、D3D卷积组内融合模块、组间注意力机制模块和重建模块，包括如下步骤：

步骤2.1，构建时间分组模块：

将相邻的2N帧根据到参考帧的时间距离划分为N个组，原始序列被重新排序为{G₁,...G_n}，n∈[i:N]，其中

是由前一帧

参考帧

和后一帧

组成的子序列。以输入的7帧视频序列

为例，

代表参考帧，其他帧为相邻帧，将这7帧分为三组，具体可根据帧速率的不同分为

这三个组。

步骤2.2，构建C3D浅层特征提取与D3D卷积层；

先通过C3D卷积对上述按时间分组后的视频帧进行初步特征提取和时间对齐，再将提取后的特征图送入D3D组内融合模块，采用可变形三维卷积(D3D)进行特征融合，进一步进行时间对齐，输入后续的深层融合模块。D3D卷积的构造方法如下所示：

首先构造C3D卷积，具体的实现方式可以分为以下两个步骤：1)对输入特征x进行三维卷积核采样2)通过函数w对采样值进行加权求和。通过膨胀系数为1的3×3×3卷积核传递的特征可以用以下公式表示：

其中，输出特征中的一个位置可以用p₀表示，p_n表示在3×3×3卷积采样网络的第n个值。

然后根据C3D卷积构造D3D卷积，将采样网络的大小设置为N＝27。大小为C×T×W×H的输入特征首先被输入到C3D来生成大小为2N×T×W×H的偏移特性。对于二维空间变形来说，这些偏移特征的通道数量一般设定为2N，然后再通过学习到的偏移量来引导普通C3D采样网络进行空间变形，进而生成D3D采样网络，最后再利用D3D采样网络生成输出特征。上述流程可用以下公式表示：

其中，Δp_n表示3×3×3卷积采样网络中第n个值对应的偏移量。偏移量通常是小数，所以具体更精确的值需要通过双线性插值来生成。

步骤2.3，构建D3D卷积组内融合模块；

在该模块中每个分组都将部署一个组内融合模块。空所述D3D卷积组内融合模块包括空间特征提取器、D3D卷积层和二维密集块；

所有的卷积层都有合适的膨胀率来模拟各个分组独有的帧间运动方式，且每组的帧率决定了卷积层的膨胀率，帧与帧之间时间相差大的运动水平就大，相差小的运动水平就小。

将空间特征

将融合特征

组内帧间信息得到深度融合，时空信息得以高效利用。

步骤2.4，构建组间注意力机制模块；

对于每一个分组，在相应的特征图

上应用一个3×3卷积层后可以计算出一个通道的特征映射图

之后，这些生成的特征映射图F₁ ^a、F₂ ^a、F₃ ^a被进一步连接，沿着时间轴的softmax函数被应用于每个位置，跨越通道，从而计算出时间注意特征图。

将每个组的中间图连起来，并且通过沿时间轴的softmax函数，计算出注意特征图M(x,y)：

对于每个组的注意加权特征

可以由以下公式计算：

其中，M_n(x,y)_j表示时间注意掩码在(x,y)_j位置的权重，

表示在组内融合模块中产生的组内群体特征，⊙表示对应元素逐个相乘。

在计算出注意特征图后，将这些特征图沿时间轴连接起来，并将其输入到一个三维密集块中，同时在三维密集块的末端插入一个包含1×3×3卷积核的卷积层，来减少通道。然后在下面放置一个二维密集块进行进一步的融合。

步骤2.5，构建重建模块：

将注意力特征图送入由六个级联的残差块和用于重建的亚像素卷积层，进行处理后生成相应的残差图R_t，同时和通过双三次插值上采样生成的原始视频残差图

进行相加，生成最终的高分辨率视频帧

公式如下：

步骤3，训练基于D3D卷积组内融合模块的视频超分辨率网络模型；

在训练过程中，通过以0.5的概率翻转和旋转对训练数据进行扩充。网络采用7个相邻的低分辨率帧作为输入。该模型由像素级L1损耗监督，并使用Adam优化器进行优化，其中β1＝0.9，β2＝0.997。训练时，权重衰减设置为5×10-4。学习速率最初设置为10-3，之后设置每10次迭代将学习率乘以0.9，直到迭代300次。mini-batch的大小设置为64。

步骤4，测试训练数据，重建视频帧序列。

将处理好的测试vid4数据集输入进训练好的网络，采用常用的图像评价指标——峰值信噪比(PSNR)和结构相似度指数(SSIM)，对重建后的图像进行定量分析，从而衡量VSR的重建性能。此外，我们使用参数量Params，网络复杂度Flops和运行时间Times来衡量网络性能。

为了验证本方法的有效性，在x4方法倍数上，将该方法与现有先进的7种视频超分辨率方法进行比较，实验数据表明，在vid4数据集上，本方法的PSNR和SSIM值优于其他模型，在可视化结果中，该网络模型恢复出的视频图像能显示出较多的纹理信息，可以较为清晰地看到图像的边缘信息，图像分辨率明显提升。

实施例2

第二方面，本实施例提供了一种基于D3D卷积组内融合网络的视频超分辨率重建装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。