CN114692765A

CN114692765A - 视频时空超分模型构建方法、装置、设备及可读存储介质

Info

Publication number: CN114692765A
Application number: CN202210344917.8A
Authority: CN
Inventors: 王正; 胡梦顺; 聂志祥; 江奎; 肖晶
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-01
Anticipated expiration: 2042-03-31
Also published as: CN114692765B

Abstract

本申请涉及一种视频时空超分模型构建方法、装置、设备及可读存储介质，由于本申请中先基于特征时间插值网络生成中间帧的初始低分辨率特征图，然后再通过向上投影模块和向下投影模块进行时间视频超分和空间视频超分的任务的相互学习，促进时间信息和空间信息完全被利用，消除跨空间误差，同时图像重构模块将相互迭代学习的多个低分辨率特征图和高分辨率特征图进行重构，生成最终的高分辨率视频帧和低分辨率视频帧，进而实现真实图像的重构，并提高了视频时空超分的效率。

Description

视频时空超分模型构建方法、装置、设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种视频时空超分模型构建方法、装置、设备及可读存储介质。

背景技术

视频图像的处理一直备受计算机视觉界研究者的关注，是计算机视觉领域中一个重要的研究方向，其核心内容是视频图像修复、压缩和超分等工作；而视频时空超分辨率目的是根据给定的低分辨率和低帧率视频重建高分辨率和高帧率的逼真视频，此类问题不仅涉及视频中间帧的合成，还包括了视频帧的超分辨率，其是由两个子任务结合的问题，是一项极具挑战的研究方向。

目前在电影制作方面，高速摄像机和高分辨率摄像机已经被广泛的使用，用来捕捉更为细致和清晰的画面，提高电影的视觉效果，但是，由于其对硬件设备要求较高、系统价格昂贵等原因并没有在其他领域得到广泛应用。相对而言，目前基于深度学习的视频时空超分工作仅仅需要一些低帧率和低分辨的视频序列，就可以得到不错的高分辨率和高帧率视频，使得视频序列的时空超分工作在人力资源慢动作生成、电影制作、高清电视升级等领域具有的广泛应用。

其中，视频超分任务的目标是通过时间对齐和聚合多个输入帧的信息，将低分辨率视频超分为高分辨率的视频；而视频插帧旨在根据连续输入帧生成中间帧。现有的对视频进行时空超分的任务大部分很多都是将时空超分成两阶段(即先视频超分后视频插帧，或先视频插帧后视频超分)进行处理，比如，先基于视频插帧生成一个真实的中间视频帧，然后基于该真实的中间视频帧进行超分处理得到真实图像，然而这种两阶段的处理方式只是将视频插帧任务和视频超分任务做了一个简单地加法，无法充分的利用两个子任务中相互促进的信息，以致影响到最终的时空超分结果，且简单的将视频时空超分分成两个阶段处理的方式所耗费的时间是非常大的，存在效率低的问题。

发明内容

本申请提供一种视频时空超分模型构建方法、装置、设备及可读存储介质，以解决相关技术中存在的无法充分利用视频插帧任务和视频超分任务之间的相互作用以及视频时空超分效率低的问题。

第一方面，提供了一种视频时空超分模型构建方法，包括以下步骤：

获取视频帧训练集，所述视频帧训练集包括连续的第一视频帧、第二视频帧、第三视频帧以及与每帧视频帧对应的原始低分辨率视频帧和原始高分辨率视频帧；

对第一视频帧的原始低分辨率视频帧和第三视频帧的原始高分辨率视频帧进行图像特征提取，得到第一视频帧的原始低分辨率视频帧对应的第一初始低分辨率特征图、第三视频帧的原始低分辨率视频帧对应的第三初始低分辨率特征图；

基于特征时间插值网络对第一初始低分辨率特征图和第三初始低分辨率特征图进行对齐插帧处理，得到第二视频帧对应的第二初始低分辨率特征图；

基于第一初始低分辨率特征图、第二初始低分辨率特征图、第三初始低分辨率特征图以及视频帧训练集对卷积神经网络模型进行训练，生成视频时空超分模型；

其中，卷积神经网络模型包括向上投影模块、向下投影模块和图像重构模块，向上投影模块用于重建高分辨率特征序列，向下投影模块用于重建低分辨率特征序列，图像重构模块用于基于向上投影模块和向下投影模块之间相互迭代作用的结果进行图像重构。

一些实施例中，所述向上投影模块具体用于：

对所述第一初始低分辨率特征图、所述第二初始低分辨率特征图和所述第三初始低分辨率特征图形成的第一低分辨率特征序列进行融合残差处理和上采样处理，得到第一高分辨率特征序列；

对所述第一高分辨率特征序列进行下采样处理，得到第二低分辨率特征序列；

对所述第二低分辨率特征序列和所述第一低分辨率特征序列进行融合残差处理，得到低分辨率残差特征序列；

对所述低分辨率残差特征序列进行超分处理，并将超分处理结果与所述第一高分辨率特征序列进行融合，得到第二高分辨率特征序列，并将所述第二高分辨率特征序列传输至所述向下投影模块。

一些实施例中，所述向下投影模块具体用于：

对所述第二高分辨率特征序列进行下采样和融合残差处理，得到第三低分辨率特征序列；

对所述第三低分辨率特征序列进行融合残差处理和上采样处理，得到第三高分辨率特征序列；

对所述第三高分辨率特征序列和所述第二高分辨率特征序列进行融合残差处理，得到高分辨率残差特征序列；

对所述高分辨率残差特征序列进行下采样处理，并将下采样处理结果与所述第三低分辨率特征序列进行融合，得到增强后的低分辨率特征序列，并将所述增强后的低分辨率特征序列传输至所述向上投影模块，以供所述向上投影模块基于所述增强后的低分辨率特征序列迭代得到增强后的高分辨率特征序列。

一些实施例中，所述图像重构模块中的损失值L_r的计算公式如下：

式中，λ₁、λ₂、λ₃和λ₄均为常数，ρ表示损失函数，

表示与第二视频帧对应的重建后的低分辨率视频帧，

表示与第二视频帧对应的原始低分辨率视频帧，

和

分别表示与第一视频帧、第二视频帧和第三视频帧一一对应的原始高分辨率视频帧，

和

分别表示与第一视频帧、第二视频帧和第三视频帧一一对应的重建后的高分辨率视频帧。

一些实施例中，所述特征时间插值网络为级联多尺度结构。

一些实施例中，所述图像重构模块中设有重建机制，所述重建机制包括超分倍数与图像重建模块中的像素重建层的层数之间的映射关系。

一些实施例中，所述原始低分辨率视频帧的分辨率为32×32，所述原始高分辨率视频帧的分辨率为128×128。

第二方面，提供了一种视频时空超分模型构建装置，包括：

数据获取单元，其用于获取视频帧训练集，所述视频帧训练集包括连续的第一视频帧、第二视频帧、第三视频帧以及与每帧视频帧对应的原始低分辨率视频帧和原始高分辨率视频帧；

特征提取单元，其用于对第一视频帧的原始低分辨率视频帧和第三视频帧的原始高分辨率视频帧进行图像特征提取，得到第一视频帧的原始低分辨率视频帧对应的第一初始低分辨率特征图、第三视频帧的原始低分辨率视频帧对应的第三初始低分辨率特征图；

视频插帧单元，其用于基于特征时间插值网络对第一初始低分辨率特征图和第三初始低分辨率特征图进行对齐插帧处理，得到第二视频帧对应的第二初始低分辨率特征图；

模型训练单元，其用于基于第一初始低分辨率特征图、第二初始低分辨率特征图、第三初始低分辨率特征图以及视频帧训练集对卷积神经网络模型进行训练，生成视频时空超分模型；

第三方面，提供了一种视频时空超分模型构建设备，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现前述的视频时空超分模型构建方法。

第四方面，提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现前述的视频时空超分模型构建方法。

本申请提供的技术方案带来的有益效果包括：不仅可实现时空融合，消除跨空间误差，还可提高视频时空超分的效率。

本申请提供了一种视频时空超分模型构建方法、装置、设备及可读存储介质，由于本申请中的卷积神经网络模型包括向上投影模块、向下投影模块和图像重构模块，向上投影模块用于重建高分辨率特征序列，向下投影模块用于重建低分辨率特征序列，图像重构模块用于基于向上投影模块和向下投影模块之间相互迭代作用的结果进行图像重构，使得生成的视频时空超分模型在进行图像重构时，可先基于特征时间插值网络生成中间帧的初始低分辨率特征图，并通过向上投影模块和向下投影模块之间的相互迭代作用进行高分辨率特征序列和低分辨率特征序列的重建，而基于重建后的高分辨特征序列可获取更多的空间信息用于时间预测的细化，且重建后的低分辨率特征序列中的时间相关性则可用于促进高分辨率特征序列纹理和细节的重建，因此通过图像重构模块即可对重构后的高分辨率特征序列和低分辨率特征序列进行图像重构，生成更为真实的图像。由此可见，本申请通过向上投影模块和向下投影模块进行时间视频超分和空间视频超分的任务的相互学习，促进时间信息和空间信息完全被利用，消除跨空间误差，同时图像重构模块将相互迭代学习的多个低分辨率特征图和高分辨率特征图进行重构，生成最终的高分辨率视频帧和低分辨率视频帧，不仅实现了时空融合，消除跨空间误差，还提高了视频时空超分的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频时空超分模型构建方法的流程示意图；

图2为本申请实施例提供的可变形卷积的过程示意图；

图3为本申请实施例提供的向上投影模块工作原理示意图；

图4为本申请实施例提供的融合残差模块工作原理示意图；

图5为本申请实施例提供的向下投影模块工作原理示意图；

图6为本申请实施例提供的一种视频时空超分模型构建设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种视频时空超分模型构建方法、装置、设备及可读存储介质，其能解决相关技术中存在的无法充分利用视频插帧任务和视频超分任务之间的相互作用以及视频时空超分效率低的问题。

图1是本申请实施例提供的一种视频时空超分模型构建方法，包括以下步骤：

步骤S10：获取视频帧训练集，所述视频帧训练集包括连续的第一视频帧、第二视频帧、第三视频帧以及与每帧视频帧对应的原始低分辨率视频帧和原始高分辨率视频帧；其中，所述原始低分辨率视频帧的分辨率为32×32，所述原始高分辨率视频帧的分辨率为128×128。

示范性的，在本申请实施例中，先进行视频帧训练集的准备，比如对一段视频任意的选取连续的三帧视频帧，即第一视频帧、第二视频帧和第三视频帧，并对每帧视频帧进行下采样处理，进而形成128×128、32×32或其他分辨率的视频帧，本实施例以分辨率为128×128的视频帧作为高分辨率标签，同时将分辨率为32×32的视频帧作为低分辨标签，即可对第一视频帧进行下采样处理，得到128×128的原始高分辨率视频帧

和32×32的原始低分辨率视频帧

同理，对第二视频帧和第三视频帧分别进行下采样处理，可得到与第二视频帧对应的128×128的原始高分辨率视频帧

和32×32的原始低分辨率视频帧

以及与第三视频帧对应的128×128的原始高分辨率视频帧

和32×32的原始低分辨率视频帧

进而得到视频帧训练集，并将原始低分辨率视频帧

和原始低分辨率视频帧

作为网络的输入。

步骤S20：对第一视频帧的原始低分辨率视频帧和第三视频帧的原始高分辨率视频帧进行图像特征提取，得到第一视频帧的原始低分辨率视频帧对应的第一初始低分辨率特征图、第三视频帧的原始低分辨率视频帧对应的第三初始低分辨率特征图；

示范性的，在本申请实施例中，由于图像经过卷积之后能够提取出图像深层次的特征，因此，本实施例基于由单纯的卷积层组成的特征提取单元对输入的原始低分辨率视频帧

和原始低分辨率视频帧

视频帧进行图像特征提取，并提取出输入图像的特征图，即得到与原始低分辨率视频帧

对应的第一初始低分辨率特征图L₁，以及与原始低分辨率视频帧

对应的第三初始低分辨率特征图L₃。

步骤S30：基于特征时间插值网络对第一初始低分辨率特征图和第三初始低分辨率特征图进行对齐插帧处理，得到第二视频帧对应的第二初始低分辨率特征图；其中，所述特征时间插值网络为级联多尺度结构。

示范性的，在本申请实施例中，中间帧特征图是由可变形卷积网络生成的，由于可变形卷积在视频帧的对齐具有良好的效果，对可变形卷积进行扩展，并通过使用多尺度框架来处理小位移和大位移的特征对齐，实现了更广泛的偏移范围的探索。因此，参见图2所示，本实施例将级联多尺度结构作为特征时间插值网络，来估计第一初始低分辨率特征图L₁和第三初始低分辨率特征图L₃的双向运动偏移量φ₁和φ₃。其具体公式如下：

φ₁＝g₁([L₁,L₃]) (1)

φ₃＝g₃([L₃,L₁]) (2)

其中，g₁和g₃分别代表估计第一初始低分辨率特征图L₁和第三初始低分辨率特征图L₃偏移量的卷积核，式(1)和式(2)中的逗号“，”代表连接操作，其作用是将输入的两个特征图连接起来。在运动偏移估计的同时，采用可变形卷积对缺失的中间帧(即第二视频帧)进行前向和后向插值得到两个方向上的中间帧T₁和T₃，其具体公式如下：

T₁＝Dconv(L₁,φ₁) (3)

T₃＝Dconv(L₃,φ₃) (4)

其中，Dconv代表动态卷积操作，将输入的两帧L₁和L₃分别与对应的生成的偏移量进行动态卷积得到向前和向后混合的两帧T₁和T₃；为了将这两种表示混合得到一个初始中间表示，使用两个可学习的卷积核来估计权值，该权值可以根据这两种表示的重要性自适应地融合。其具体公式如下：

L₂＝α×T₁+β×T₃ (5)

其中，α和β是两个可学习的卷积核，学习两个混合帧T₁和T₃中更好的特征，进而生成中间帧(即第二视频帧)的第二初始低分辨率特征图L₂。

步骤S40：基于第一初始低分辨率特征图、第二初始低分辨率特征图、第三初始低分辨率特征图以及视频帧训练集对卷积神经网络模型进行训练，生成视频时空超分模型；

示范性的，在本申请实施例中，卷积神经网络模型包括向上投影模块、向下投影模块和图像重构模块，通过第一初始低分辨率特征图、第二初始低分辨率特征图、第三初始低分辨率特征图以及视频帧训练集对卷积神经网络模型进行训练，即可得到视频时空超分模型；而生成的视频时空超分模型则可通过向上投影模块利用初始低分辨率特征图形成的特征序列存在的序列时序信息得到高分辨率特征序列；然后再基于具有更加丰富的空间信息的高分辨率特征序列并通过向下投影模块来修复增强初始低分辨率特征序列，得到增强后的低分辨率特征序列，其中，这两个部分是一个迭代的过程，迭代次数取决于训练模型设置的次数；最后将得到的高分辨率特征图进行重建，恢复为真实图像。

进一步的，所述向上投影模块具体用于：

示范性的，在本申请实施例中，通过向上投影模块连接输入的所有低分辨率特帧图，首先利用低分辨率特帧图的时序信息对所有的视频帧序列(该视频帧序列可以为初始低分辨率特征图形成的初始低分辨率特征序列，也可以是经过向下投影模块处理后得到的增强后的低分辨率特征序列；不过，由于向上投影模块与向下投影模块之间需要进行多次迭代，所以在第一次迭代的开始时刻，该视频帧序列是初始低分辨率特征图形成的初始低分辨率特征序列，而在之后的迭代过程中，该视频帧序列均是经过向下投影模块处理后得到的增强后的低分辨率特征序列)的特征图进行超分，其次将超分后的视频特征进行下采样得到一个增强后的低分辨率特征序列，然后将增强后的低分辨率特征序列与原始输入的低分辨特征序列做一个差值计算，得到一个残差特征序列，再将残差特征序列投影到高分辨率空间，并与之前得到的高分辨率结果相加，消除原始超分带来的错误，进而得到高分辨率特征序列结果。

具体的，参见图3所示，本实施例将T时刻输入的第一初始低分辨率特征图、第二初始低分辨率特征图和第三初始低分辨率特征图分别记为

并形成第一低分辨率特征序列

先经过向下投影模块中的放大子模块UP₀(即Scale UPModule0)连接三个初始低分辨率特征图

并利用三者之间的时序信息超分得到与第一低分辨率特征序列

对应的第一高分辨率特征序列

其具体的公式如下：

参见图4所示，本实施例采用融合残差模块进行多帧渐进融合：对输入的每张初始低分辨率特征图进行3×3卷积，以提取空间信息，并通过LReLU激活函数进行映射；其次通过通道连接C将时间信息聚合起来，然后利用1×1的卷积对融合的时间信息进行提取，得到一个更为简要的混合时间信息表示；再将每个初始低分辨率特征图中的自我空间信息和混合的时间信息连接输入到3×3的卷积中，生成残差特征序列，以对输入的每个初始低分辨率特征图进行细化，隐式地利用了帧内的空间相关性和帧间的时间相关性，消除跨空间带来的误差，最后通过双线性插值和1×1卷积对每个初始低分辨率特征图进行上采样，进而得到第一高分辨率特征序列

为了更好的利用第一低分辨率特征序列

的特征，将得到的第一高分辨率特征序列

向下采样，得到一个第二低分辨率特征序列，并与原始输入的第一低分辨率特征序列

做一个融合残差处理，得到低分辨率残差特征序列

其具体的公式如下：

其中，DN₀表示向上投影模块中的向下缩放子模块(即Scale Down Module0)，本实施例利用DN₀中的4×4的卷积核对第一高分辨率特征序列

进行下采样，然后同样利用融合残差块的方式对特征序列进行处理，得到低分辨率残差特征序列

最后，基于向下投影模块中的放大子模块UP₁(即Scale UP Module1)将低分辨率残差特征序列

重新超分并与第一高分辨率特征序列

进行相加，消除最初超分时候带来的误差，以获得更好的超分辨率，即输出第二高分辨率特征序列

具体的公式如下：

式(8)输出的第二高分辨率特征序列

将作为向下投影模块的输入。

进一步的，所述向下投影模块具体用于：

示范性的，在本申请实施例中，由于向上投影模块和向下投影模块需要进行迭代处理，以形成时空相互映射，其中，迭代的次数N可以根据实际情况设置，在此不作限定。因此，参见图5所示，向下投影模块对输出的第二高分辨率特征序列

进行双线性下采样得到最新的低分辨率特征序列，然后通过双线性插值和1×1卷积对最新的低分辨率特征序列中的每个低分辨率特征图进行上采样，得到一组增强后的高分辨率特征序列，并与第二高分辨率特征序列做一个残差，最后为了消除原始下采样过程造成的错误，将生成的残差特征序列与之前得到的低分辨率特征序列相加得到最终输出结果。

由此可见，本实施例中的向下投影模块主要作用是利用高分辨率特征序列中丰富的空间信息对低分辨率特征图进行增强。因此，本实施例的核心思想是充分利用低分辨率特征序列的时序信息提升超分的效果，反过来再利用高分辨率特征序列中丰富的空间信息来修复低分辨率特征序列，即经过向上投影模块和向下投影模块的几次迭代直至低分辨率特征序列和高分辨率特征序列变得平衡，也就是特征图像得到充分的增强。

具体的，首先利用第二高分辨率特征序列

的空间信息并经过向下投影模块中的向下放缩子模块DN₁(即Scale Down Module1)得到第三低分辨率特征序列

具体的公式如下：

其中，通过4×4卷积将第二高分辨率特征序列

降采样到第三低分辨率特征序列

再通过融合残差块隐式地利用低分辨率表示的帧内空间相关性和帧间时间相关性；然后通过向下投影模块中的放大子模块UP₂(即Scale UPModule2)将向下采样缩小后得到的第三低分辨率特征序列

重新投影回到高分辨率空间，并计算新生成的第三高分辨率特征序列和第二高分辨率特征序列

之间相应的残差，得到高分辨率残差特征序列

其具体公式为：

其中，本实施例依然采用融合残差模块，隐式地利用帧内的空间相关性和帧间的时间相关性，消除跨空间带来的误差，然后通过双线性插值和1×1卷积对每个特征进行上采样。最后，再通过向下投影模块中的向下放缩子模块DN₂(即Scale Down Module2)将高分辨率残差特征序列

重新向下缩放并与第三低分辨率特征序列

相加，消除最初向下采样时候带来的误差，以获得更好的结果，并输出增强后的低分辨率特征序列

具体的公式如下：

然后将增强后的低分辨率特征序列传输至向上投影模块，以供向上投影模块基于该增强后的低分辨率特征序列迭代得到增强后的高分辨率特征序列

进一步的，所述图像重构模块中的损失值L_r的计算公式如下：

式中，λ₁、λ₂、λ₃和λ₄均为常数，ρ表示损失函数，

表示与第二视频帧对应的重建后的低分辨率视频帧，

表示与第二视频帧对应的原始低分辨率视频帧，

和

和

进一步的，所述图像重构模块中设有重建机制，所述重建机制包括超分倍数与图像重建模块中的像素重建层的层数之间的映射关系。

示范性是，在本申请本实施例中，对得到的增强后的高分辨率特征序列

进行重构，得到最终的真实图像帧序列，即恢复成真实图像并与视频帧训练集中的实际图像进行对比，如果误差并不收敛就返回继续训练直至误差收敛为止，当误差收敛后保存网络模型，生成视频时空超分模型。

具体的，经过几次迭代后将得到增强后的高分辨率特征图，在图像重建时候，本实施例对不同分辨率的特征图采用的重建机制是不同的，经过更多的迭代，可获得多个低分辨率表示和多个2倍高分辨率表示。考虑到计算的复杂性，本实施例重建的网络在不同的超分辨率因子下略有不同，比如对于2倍超分辨率，可直接将多个2倍高分辨率表示连接到40个残差块和一个卷积层进行重建；而对于4倍超分辨率，可在卷积层之前添加一个额外的像素重建层进行重建；对于8倍超分辨率，则可在卷积层之前添加两个额外的像素重建层进行重建。本实施例在重建高分辨率图像的同时，也重建了低分辨率特征图的中间帧引入监督，具体的损失函数公式如下：

其中，L_r为具体的损失值，λ₁、λ₂、λ₃和λ₄均为常数，其值可分别优选为1、1、0.5和0.5，ρ表示损失函数(比如Charbonnier损失函数)，即

x表示生成图像与真实图像的差值，ω表示正则项，

代表重建后的低分辨率中间帧，

和

代表重建后的高分辨率帧。本实施例中的损失值是为了更新网络参数，以优化网络模型，如果损失值收敛，则停止网络模型的训练并生成视频时空超分模型，否则返回继续训练。

由此可见，本申请的原理是基于以下几点考虑的：(1)视频帧序列可以提供更多的时序信息以重建高分辨率特征图像；(2)高分辨率的特征图中存在更多的空间信息可用来修复低分辨率特征图信息。因此，本申请提出了一种新的基于单阶段的循环投影相互学习网络，其可以通过视频超分和视频插帧之间相互学习来充分利用耦合时空相关性，且为了更好地探索耦合关系，实现时空融合以消除跨空间误差，本实施例设计了上下投影模块来利用视频插帧和视频超分之间的相互信息。因此，本实施例中的高分辨特征图序列提供了更多的空间信息用于时间预测的细化，而低分辨率特征图序列中的时间相关性则用于促进高分辨率特征图序列纹理和细节的重建。

进一步的，本实施例在利用已经训练好的视频时空超分模型进行视频时空超分时，其步骤与视频时空超分模型创建的过程和原理基本相似，因此为了描述的简洁性，在此不再赘述。不过，在利用已经训练好的视频时空超分模型进行视频时空超分时，进行视频帧训练集的准备时，输入的视频帧序列不仅仅局限于输入相邻的视频帧，还可以是任意间隔的两个视频帧；且由于网络训练时会选择训练超分图像的尺寸，因此在视频时空超分模型中的图像超分倍数取决于训练时候，而在上述训练过程中，已介绍了不同超分倍数对应的策略，在此不再赘述。

本申请实施例还提供了一种视频时空超分模型构建装置，包括：

由于本申请中的卷积神经网络模型包括向上投影模块、向下投影模块和图像重构模块，向上投影模块用于重建高分辨率特征序列，向下投影模块用于重建低分辨率特征序列，图像重构模块用于基于向上投影模块和向下投影模块之间相互迭代作用的结果进行图像重构，使得生成的视频时空超分模型在进行图像重构时，可基于先生成的中间帧的初始低分辨率特征图以及前后两帧的初始低分辨率特征图，并通过向上投影模块和向下投影模块之间的相互迭代作用进行高分辨率特征序列和低分辨率特征序列的重建，而基于重建后的高分辨特征序列可获取更多的空间信息用于时间预测的细化，且重建后的低分辨率特征序列中的时间相关性则可用于促进高分辨率特征序列纹理和细节的重建，因此通过图像重构模块即可对重构后的高分辨率特征序列和低分辨率特征序列进行图像重构，生成更为真实的图像。由此可见，本申请通过上下投影模块来利用视频插帧和视频超分之间的相互信息，即通过视频超分任务和视频插帧任务之间的相互学习来充分利用耦合时空相关性，不仅实现了时空融合，消除跨空间误差，还提高了视频时空超分的效率。

进一步的，所述向上投影模块具体用于：

进一步的，所述向下投影模块具体用于：

式中，λ₁、λ₂、λ₃和λ₄均为常数，ρ表示损失函数，

表示与第二视频帧对应的重建后的低分辨率视频帧，

表示与第二视频帧对应的原始低分辨率视频帧，

和

和

进一步的，所述特征时间插值网络为级联多尺度结构。

进一步的，所述原始低分辨率视频帧的分辨率为32×32，所述原始高分辨率视频帧的分辨率为128×128。

需要说明的是，所属本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述视频时空超分模型构建方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的视频时空超分模型构建设备上运行。

本申请实施例还提供了一种视频时空超分模型构建设备，包括：通过系统总线连接的存储器、处理器和网络接口，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现前述的视频时空超分模型构建方法的全部步骤或部分步骤。

其中，网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程逻辑门阵列(FieldProgrammable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外，存储器可以包括高速随存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(SmartMedia Card，SMC)、安全数字(Secure digital，SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现前述的视频时空超分模型构建方法的全部步骤或部分步骤。

本申请实施例实现前述的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Onlymemory，ROM)、随机存取存储器(RandomAccessmemory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。