CN114119371B

CN114119371B - 视频超分模型训练方法和装置、视频超分处理方法和装置

Info

Publication number: CN114119371B
Application number: CN202111411350.3A
Authority: CN
Inventors: 王娜; 江列霖; 党青青; 赖宝华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-01-10
Anticipated expiration: 2041-11-25
Also published as: CN115631093A; CN114119371A

Abstract

本公开提供了一种视频超分模型训练方法和装置，涉及计算机视觉、深度学习等技术领域。具体实现方案为：获取包括两个以上视频帧的视频集；获取预先建立的视频超分网络，视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，循环对齐子网用于对滑窗子输出的特征进行双向传播，生成重构特征和对齐参数，细化对齐子网基于对齐参数对重构特征进行再对齐和双向传播，得到超分后的视频帧；执行以下训练步骤：将从视频集中选取的连续视频帧输入视频超分网络，计算视频超分网络的损失值；基于视频超分网络的损失值，得到视频超分模型。该实施方式提高了模型进行视频超分的效果。

Description

视频超分模型训练方法和装置、视频超分处理方法和装置

技术领域

本公开涉及计算机技术领域，具体涉及计算机视觉、深度学习等技术领域，尤其涉及一种视频超分模型训练方法和装置、视频超分处理方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。

背景技术

视频超分（Video Super-Resolution）任务是从给定的低分辨率视频中恢复相应的高分辨率对应物。近年来，随着互联网视频数据的爆炸式增长，视频超分技术受到了研究人员的极大关注。与图像超分相同的是视频超分也是一个不适定问题。然而，与图像超分不同的是，视频超分不仅需要注意相应低分辨率帧，还需要利用视频序列中连续帧的信息。一些早期的视频超分方法延续了图像超分的思想，没有很好地利用连续的视频帧信息，导致视频超分的结果不尽人意。

发明内容

本公开提供了一种视频超分模型训练方法和装置、视频超分处理方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。

根据第一方面，提供了一种视频超分模型训练方法，该方法包括：获取包括两个以上视频帧的视频集；获取预先建立的视频超分网络，视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，循环对齐子网用于对滑窗子输出的特征进行双向传播，生成重构特征和对齐参数，细化对齐子网基于对齐参数对重构特征进行再对齐和双向传播，得到超分后的视频帧；执行以下训练步骤：将从视频集中选取的连续视频帧输入视频超分网络，计算视频超分网络的损失值；基于视频超分网络的损失值，得到视频超分模型。

根据第二方面，提供了一种视频超分处理方法，该方法包括：获取多个待处理视频；将待处理视频帧输入采用如第一方面任一实现方式描述的方法生成的视频超分模型中，输出待处理视频帧的视频超分处理结果。

根据第三方面，提供了一种视频超分模型训练装置，该装置包括：视频获取单元，被配置成获取包括两个以上视频帧的视频集；网络获取单元，被配置成获取预先建立的视频超分网络，视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，循环对齐子网用于对滑窗子输出的特征进行双向传播，生成重构特征和对齐参数，细化对齐子网基于对齐参数对重构特征进行再对齐和双向传播，得到超分后的视频帧；选取单元，被配置成将从视频集中选取的连续视频帧输入视频超分网络；计算单元，被配置成计算视频超分网络的损失值；得到单元，被配置成基于视频超分网络的损失值，得到视频超分模型。

根据第四方面，又提供了一种视频超分处理装置，该装置包括：获取单元，被配置成获取多个待处理视频；输入单元，被配置成将待处理视频输入采用如第三方面任一实现方式描述的装置生成的视频超分模型中，得到待处理视频的视频超分处理结果。

根据第五方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。

本公开的实施例提供的视频超分模型训练方法和装置，首先，获取包括两个以上视频帧的视频集；其次，获取预先建立的视频超分网络，视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，循环对齐子网用于对滑窗子输出的特征进行双向传播，生成重构特征和对齐参数，细化对齐子网基于对齐参数对重构特征进行再对齐和双向传播，得到超分后的视频帧；再次，将从视频集中选取的连续视频帧输入视频超分网络；从次，计算视频超分网络的损失值；最后，基于视频超分网络的损失值，得到视频超分模型。本公开通过训练结合滑窗网络和双向循环网络的视频超分网络，可以使得到的视频超分模型具有该两种网络的优点；并且采用视频超分网络对输入的视频帧进行多阶段超分以及细化，保障了视频帧序列的细节保持效果，提高了模型进行视频超分的效果。

本公开的实施例提供的视频超分处理方法和装置，获取多个待处理视频；将待处理视频输入采用本实施例的视频超分模型训练方法生成的视频超分模型中，得到待处理视频的视频超分处理结果。由此，采用包括多个阶段的超分的视频超分网络的视频超分模型，可以对待处理视频进行可靠的视频超分处理，保证了超分处理的有效性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开视频超分模型训练方法的一个实施例的流程图；

图2是本公开实施例中视频超分网络的一种结构示意图；

图3是根据本公开视频超分处理方法的一个实施例的流程图；

图4是根据本公开视频超分模型训练装置的一个实施例的结构示意图；

图5是根据本公开视频超分处理装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的视频超分模型训练方法或视频超分处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

对于同一段视频中的视频帧，可能内容源相同，但存在运动偏移，场景偏移，或光线偏移。在这种情况下，如何将视频帧对齐，找到一个共同的基准点，是视频帧对齐需要解决的问题。

视频对齐方法通过提取运动信息，使视频帧中的相邻帧与目标帧对齐，该方法主要有运动估计补偿和可形变卷积两种方法，其中，运动估计补偿用于提取帧间运动信息（如采用光流法提取），并根据帧间运动信息执行帧间的扭曲操作使其对齐。可形变卷积方法是采用可形变卷积使输入特征通过卷积操作获得偏移，可形变卷积的卷积核是在传统的卷积核中加入偏移量得到，如EDVR（Video Restoration with Enhanced DeformableConvolutional Networks，增强的可变形视频恢复）模型。

一些早期的方法受到图像超分方法的启发，只是将架构应用于视频超分，但是相邻帧之间的时间信息没有得到充分利用。为了解决这个问题，最近的方法设计了很多复杂的模块，如双向循环神经网络。双向循环神经网络的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络，前向子网络输入正向视频帧，反向子网络输入反向视频帧；循环神经网络引入光流对齐网络（spynet）在传播中对齐；循环神经网络在工作时一个重要的优点在于，能够在输入和输出序列之间的映射过程中利用前后帧相关信息；而双向循环神经网络的改进之处在于，假设当前的输出（第t帧的输出）不仅仅与前面的序列帧有关，并且还与后面的序列帧有关。例如：预测视频中一帧那么就需要根据前后帧来进行预测。双向循环神经网络是由两个循环神经网络叠加在一起组成的，输出由这两个循环神经网络的隐藏层的状态决定的。

根据视频帧是否明确对齐，视频超分方法可以分为两大类：无对齐方法和有对齐方法。无对齐方法虽然网络结构简单，但对于大型运动视频的恢复结果通常较差。有对齐方法通常具有复杂的对齐模块，具有大量参数。因此设计一个参数量小，包含对齐模块，并能取得较好的恢复效果的模型一个迫切且棘手的问题。基于此，本公开提出了一种视频超分模型训练方法，图1示出了根据本公开视频超分模型训练方法的一个实施例的流程100，上述视频超分模型训练方法包括以下步骤：

步骤101，获取包括两个以上视频帧的视频集。

本实施例中，视频超分模型训练方法运行于其上的执行主体可以通过多种方式获取视频集，例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的视频集。再例如，用户可以通过与终端通信，获取终端所收集的视频集。

在这里，视频集可以包括至少两个以上视频帧，两个以上视频帧可以由至少一个视频序列组成，针对训练视频超分网络时需要的样本可以从视频集中选取连续视频帧，选取的连续视频帧可以是一个视频序列，通过向视频超分网络输入视频序列，可以得到由该视频超分网络输出的高分辨率的视频序列。

本公开的技术方案中，所涉及的视频帧、视频序列的收集、存储、使用、加工、传输、提供和公开等处理，是在经授权后执行的，符合相关法律法规。

步骤102，获取预先建立的视频超分网络。

其中，视频超分网络包括滑窗对齐子网、循环对齐子网以及细化对齐子网，如图2所示，在视频超分网络中滑窗对齐子网1、循环对齐子网2以及细化对齐子网3三者依次顺序连接，滑窗对齐子网1接收输入的多个连续视频帧（视频序列），依次经过循环对齐子网2、细化对齐子网3的处理之后，得到由细化对齐子网3输出的超分后的视频帧（图2中细化对齐子网3输出的视频帧），而细化对齐子网3输出的视频帧也是多个连续视频帧（视频序列），并且相对于向滑窗对齐子网1输入的多个连续视频帧，该出的视频帧视频分辨率更高，达到了从低分辨率视频中恢复出高分辨率视频的效果。

本实施例中，滑窗对齐子网采用滑动窗口方法对多个连续视频帧进行估计，得到接近标注的高分辨率视频的高质量的参考帧，例如，在滑窗对齐子网中将2N+1（N≥1）个连续视频帧作为输入，该输入中将中间帧表示为参考帧，除参考帧之外的其他作为相邻帧，滑窗对齐子网包括：对齐模块（PCD，Pyramid、Cascading and Deformable convolution）和融合模块（TSA，Temporal and Spatial Attention），每个相邻帧通过对齐模块在特征级与参考帧对齐，融合模块融合不同帧的图像信息，得到融合后的图像。

可选地，滑窗对齐子网中，在对齐模块之前还可以使用预模糊模块，对模糊输入视频帧进行预处理，提高对齐精度。

在本实施例的一些可选实现方式中，上述滑窗对齐子网包括：特征提取模块和局部融合模块；特征提取模块用于提取选取的连续视频帧的特征；局部融合模块用于将选取的连续视频帧的特征中目标帧特征以及与目标帧特征相邻的相邻帧特征进行对齐，得到至少一个邻对齐特征；局部融合模块还用于将至少一个邻对齐特征、目标帧特征按序进行连接后，通过残差块，得到融合后的特征。

本可选实现方式中，特征提取模块主要作用是将选取的连续视频帧映射到高维特征空间，得到高维的视频帧的特征。特征提取模块可以是一种编码器，比如，特征提取器由两层卷积。

本可选实现方式中，邻对齐特征用于表征与目标帧特征对齐的相邻帧特征，通过concat函数可以将邻对齐特征和目标帧特征连接在一起。

具体地，如图2中，滑窗对齐子网1包括：特征提取模块和局部融合模块局LFM，特征提取模块用于提取选取的连续视频帧的特征，局部融合模块局LFM的目的是让选取的连续视频帧的特征中目标帧特征（例如选取的连续视频帧中的中间帧）先融合其相邻帧（中间帧两边所有的视频帧）的信息，然后将融合后的特征与选取的连续视频帧的特征一起传给下一阶段的循环对齐子网2。

本实施例中，滑动对齐子网的输入是任意连续视频帧（设为N），通过特征提取模块的特征提取后得到N个连续视频帧的特征，将这个N个连续视频帧的特征依次输入到局部融合模块LFM，以N个连续视频帧的特征中的第i（i＞1）个输入为例，输入第i个特征时同时输入第i+1和i-1特征，在局部融合模块LFM中进行对齐融合后得到融合后的第i个特征。

本实施例中，局部融合模块LFM首先将相邻帧特征与目标帧特征进行对齐，然后通过concat函数和多个残差块融合对齐后的相邻特征。这里的特征对齐可以采用流动引导的形变卷积

。融合后的特征可以表示如式（1）所示：

在式（1）中，目标帧特征

就是中间帧，是通过特征提取模块对选取的连续视频帧进行特征提取获得。concat函数可以将相邻帧特征与目标帧特征组合在一起，然后通过残差块ResBlocks（一系列卷积构成的模块）进行特征融合，得到融合后的特征。

本可选实现方式中，在视频帧的特征传播之前先进行局部融合模块的局部特征融合，可以加强特征传播中的跨帧特征融合，提高了滑窗对齐子网对视频帧的特征的进行融合的融合效果。

本实施例中，循环对齐子网和细化对齐子网均可以采用双向循环神经网络，采用双向循环神经网络可以充分利用视频序列之间的时间信息，提高了超分效果。

如图2所示，循环对齐子网2可以为一种传统的双向循环神经网络，该循环对齐子网2包括：特征双向传播模块和重构模块；其中，特征双向传播模块用于对滑窗对齐子网1输出的特征（可以包括选取的视频的特征和局部融合模块输出的融合后的特征）进行双向传播与对齐，得到重构特征和对齐参数；重构模块用于对特征双向传播模块输出的重构特征进行重构，得到重构图。在图2中，循环对齐子网2的重构模块生成的重构图可以用于计算循环对齐子网2的分支损失。

本实施例中，对齐参数是指双向循环神经网络进行光流、形变卷积等进行帧间对齐的过程中采用的参数，如对齐时由残差块输出的两个视频帧之间的偏移量。细化对齐子网相对于传统的双向循环神经网络可以充分使用循环对齐子网之前对齐操作的对齐参数，并在该循环对齐子网的对齐参数基础上进行再对齐，优化循环对齐子网的对齐参数，得到更好的对齐操作的结果。

双向循环神经网络一般包括残差网络（ResNet），双向循环神经网络的残差网络具有多个残差块，各个残差块可以采用不同的原理对特征进行融合处理，例如对对齐模块产生的偏移量（参考帧与相邻帧之间的偏差）进行融合，得到融合后的偏移量；或者对对齐模块产生的偏移量和权重值（不同偏移量对应的权重值）进行融合，得到融合后的偏移量和融合后的权重值。

与图像超分不同，视频超分通常需要将相邻帧与当前帧对齐以更好地整合相邻帧的信息。在一些大型运动视频超分任务中，对齐的作用尤为明显。在使用双向循环网络的过程中，往往会有多次相同的对齐操作。为了充分利用之前对齐操作的结果，在细化对齐子网中采用细化对齐模块利用之前对齐的参数并获得更好的对齐结果。

在本实施例的一些可选实现方式中，如图2所示，上述细化对齐子网3可以包括：特征双向传播模块、细化对齐模块、重构模块；细化对齐模块基于对齐参数对重构特征进行预对齐，得到预对齐特征；基于预对齐特征，生成对齐参数的残差；基于对齐参数和对齐参数的残差，生成新的参数；特征双向传播模块基于新的参数，对重构特征进行双向传播和对齐，生成再构特征；重构模块用于对再构特征进行重构，得到对应再构特征的超分后的视频帧。

本可选实现方式中，细化对齐模块使用循环对齐子网2产生的偏移量和权重进行预对齐，预对齐特征表示如式（2）所示：

其中

是细化对齐子网的第i+1个输入特征（也是循环对齐子网输出的第i+1个重构特征），

和

是循环对齐子网中第𝑖+1个特征向第𝑖个特征对齐的偏移量和权重值，

是可形变卷积。然后用预对齐特征和

来生成偏移量和权重值残差

,

，如式（3）所示：

最后两对偏移量和权重值用来做最终的对齐，得到再构特征

，如式（4）所示：

本可选实现方式中，特征双向传播模块用于采用双向循环神经网络，对重构特征进行双向传播和对齐，生成再构特征。

本可选实现方式中，重构模块用于对视频帧特征进行还原，得到还原后的视频帧。

可选地，细化对齐子网还可以包括像素选取模块（pixel shuffle），通过像素选取模块可以选取重构模块输出的视频帧中的像素，从而得到更优地超分后的视频帧。

本可选实现方式提供的细化对齐子网，利用循环对齐子网的对齐参数并获得更好的对齐结果。其中，细化对齐模块首先使用循环对齐子网进行特征对齐时产生的偏移量和权重值对细化对齐子网的输入特征进行预对齐，然后用预对齐特征来生成偏移量和权重值的残差，最后两对偏移量和权重值被用于做最终的特征对齐，从而提高了视频超分网络的对齐效果，保证了视频超分模型对视频序列的处理效果。

步骤103，将从视频集中选取的连续视频帧输入视频超分网络。

其中，选取的连续视频帧是视频序列，该视频序列具有多个连续视频帧。

本实施例中，执行主体可以从步骤101中获取的视频集中选取多个连续的视频帧，以及执行步骤103至步骤105的训练步骤，完成一次视频超分网络的迭代训练。其中，从视频集中选取视频帧的选取方式和选取数量在本申请中并不限制，并且视频超分网络的迭代训练的次数也并不限制。例如在一次迭代训练中可以是随机选取多个连续的视频帧，该选取的连续视频帧标注有真值（ground truth），通过选取的连续视频帧的真值计算视频超分网络的损失值，调整视频超分网络的参数。

本实施例中，选取的连续视频帧按视频帧的时间先后顺序同时输入视频超分网络，视频超分网络对选取的连续视频帧进行超分处理，得到超分处理结果，该超分处理结果为多个高分辨率的视频帧，相对于选取的连续视频帧，提高了分辨率。

步骤104，计算视频超分网络的损失值。

本实施例中，视频超分网络的每次迭代训练时，均会从视频集中选取多个连续视频帧，并将选取的连续视频帧输入视频超分网络，基于预先为视频超分网络设置的损失函数计算视频超分网络的损失值。

本实施例中，视频超分网络的损失函数可以采用均方误差函数，均方误差函数是视频超分网络的预测值（估计值）与真值差平方的期望，在视频超分网络迭代训练过程中，可以利用梯度下降算法最小化视频超分网络的损失函数，从而迭代地优化视频超分网络的网络参数。

梯度的本意是一个向量，表示某一损失函数在该点处的方向导数沿着该方向取得最大值，即损失函数在该点处沿着该方向变化最快，变化率最大。在深度学习中，神经网络的主要任务是在学习时找到最优的网络参数（权重和偏置），这个最优的网络参数也就是损失函数最小时的参数。

为了实现对视频超分网络中各个子网的优化，可以为循环对齐子网单独设置分支损失函数，计算得到循环对齐子网的分支损失，而视频超分网络的损失值作为整体损失，在本实施例的一些可选实现方式中，上述计算视频超分网络的损失值包括：计算视频超分网络的整体损失；基于预先设置的分支损失函数，计算循环对齐子网的分支损失；基于整体损失和循环对齐子网的分支损失，得到视频超分网络的损失值。

本可选实现方式中，在视频超分网络每次迭代训练中，基于为视频超分网络预先设置的损失函数，计算视频超分网络的整体损失；基于分支损失函数，计算得到循环对齐子网的分支损失；上述基于整体损失和循环对齐子网的分支损失，得到视频超分网络的损失值，包括：将整体损失与循环对齐子网的分支损失相加，得到视频超分网络的损失值。

本实施例中，为视频超分网络预先设置的损失函数和分支损失函数均可以采用均方误差函数。

可选地，在视频超分网络每次迭代训练中，上述基于整体损失和循环对齐子网的分支损失，得到视频超分网络的损失值，包括：分别为视频超分网络、循环对齐子网设置权重值；将上述整体损失与视频超分网络的权重值相乘，得到第一乘积值；将上述循环对齐子网的分支损失与循环对齐子网的权重值相乘，得到第二乘积值；将第一乘积值与第二乘积值相加，得到视频超分网络的损失值。

本可选实现方式中，通过为循环对齐子网设置损失函数，可以单独计算循环对齐子网的分支损失，从而在循环对齐子网对特征进行双向传播，并对循环对齐子网生成的特征的重构结果添加一个分支损失，使循环对齐子网的特征更接近真实高分辨率特征空间，提高了循环对齐子网的超分处理的可靠性。

在本实施例的一些可选实现方式中，上述基于预先设置的分支损失函数，计算循环对齐子网的分支损失，包括：获取循环对齐子网的重构图，重构图通过对重构特征进行重构得到；基于重构图、分支损失函数，计算得到循环对齐子网的分支损失。

本实施例中，如图2所示的循环对齐子网和细化对齐子网中的两个重构模块功能相同均可以得到重构图像，重构模块的原理为常规的重构原理，重构模块实现的原理此处不再赘述，令

为循环对齐子网中重构模块中的特征，对该特征上采样和卷积处理后，可以得到重构图，通过该特征计算分支损失函数，具体地，分支损失

通过式（5）计算得到：

式（5）表征的函数是为循环对齐子网设置的分支损失函数，其中，在式（5）中，

为视频帧的真值；

为重构图（对重构模块的特征

上采样以及卷积处理后得到）；

为误差值，该误差值可以是为循环对齐子网预设的一个固定值。

本可选实现方式中，通过对循环对齐子网输出的重构图，计算循环对齐子网的分支损失，保证循环对齐子网的损失值计算的可靠性，并且还为循环对齐子网的稳定训练提供可靠依据。

步骤105，基于视频超分网络的损失值，得到视频超分模型。

本实施例中，视频超分模型是通过多次迭代训练，对视频超分网络进行调参后，得到的训练完成的视频超分网络，通过视频超分网络的损失值可以检测视频超分网络是否满足训练完成条件，在视频超分网络满足训练完成条件之后，得到视频超分模型。

在本实施例中，上述训练完成条件包括以下至少一项：视频超分网络的训练迭代次数达到预定迭代阈值，视频超分网络的损失值小于预定损失值阈值。其中，预定迭代阈值是基于视频超分网络的损失值得到的经验值。例如，视频超分网络的预定迭代阈值是5万次。视频超分网络的预定损失值阈值为0.01。

可选地，本实施例中，响应于视频超分网络不满足训练完成条件，则调整视频超分网络中的相关参数使得视频超分网络的损失值收敛，基于调整后的视频超分网络，继续执行上述训练步骤103-105。

本可选实现方式中，在视频超分网络不满足训练完成条件时，调整视频超分网络的相关参数，有助于帮助视频超分网络的损失值收敛。

在本实施例中，若训练未完成，可以通过调整视频超分网络的参数使得视频超分网络的损失值收敛。具体地，调整视频超分网络中的相关参数使得视频超分网络的损失值收敛包括：通过执行步骤103至步骤105，反复调整滑窗对齐子网、循环对齐子网以及细化对齐子网中任意一个子网络的参数或损失权重值，以使视频超分网络的损失值收敛。

可选地，在每次迭代过程中，还可以同时调整滑窗对齐子网、循环对齐子网以及细化对齐子网中两个以上子网络的参数，以保证视频超分网络的损失值逐渐变小直至稳定。

本实施例中，上述基于视频超分网络的损失值，得到视频超分模型，包括：响应于视频超分网络满足训练完成条件，将满足训练完成条件的视频超分网络作为视频超分模型；将细化对齐子网的输出作为视频超分模型的输出。

在本实施例的一些可选实现方式中，上述基于视频超分网络的损失值，得到视频超分模型，包括：响应于视频超分网络满足训练完成条件，将视频超分网络作为视频超分模型；将滑窗对齐子网融合后的特征与细化对齐子网输出的超分后的视频帧相加，得到视频超分模型的输出。

本可选实现方式中，将滑窗对齐子网融合后的特征与细化对齐子网输出的超分的视频相加的内容，作为视频超分模型的输出，可以丰富视频超分模型的输出，提高了视频超分模型的输出效果。

本公开提出了一个多阶段视频超分网络，该网络结合了滑动窗口方法和循环网络方法的思想，使用多阶段策略进行视频超分。具体来说，首先在滑窗对齐子网中对输入的视频帧进行特征抽取和局部特征融合；然后在循环对齐子网中对融合后的特征进行传播，并且引入分支损失来加强传播过程中的特征对齐；最后在细化对齐子网中引入细化对齐模块重复利用循环对齐子网对齐产生的对齐参数来进行特征的细化对齐和加强传播，得到超分后的视频帧。

本公开的实施例得到的视频超分模型仅用1.45M 参数，便在vid4 数据集（视频超分领域的一种常用数据集）上，PSNR （Peak Signal to Noise Ratio，峰值信噪比）指标达到 28.13。在当前轻量级视频超分方法中，本公开的视频超分模型以最少的参数量，在四个标准视频超分测试数据集（REDS4数据集，UDM10数据集，Vimeo-90K-T数据集，Vid4数据集）上达到最高的PSNR和SSIM（structural similarity index measurement ，结构相似性指数测量）指标。

本公开的实施例提供的视频超分模型训练方法，首先，获取包括两个以上视频帧的视频集；其次，获取预先建立的视频超分网络，视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，循环对齐子网用于对滑窗子输出的特征进行双向传播，生成重构特征和对齐参数，细化对齐子网基于对齐参数对重构特征进行再对齐和双向传播，得到超分后的视频帧；再次，将从视频集中选取的连续视频帧输入视频超分网络；从次，计算视频超分网络的损失值；最后，基于视频超分网络的损失值，得到视频超分模型。本公开通过训练结合滑窗网络和双向循环网络的视频超分网络，可以使得到的视频超分模型具有该两种网络的优点；并且采用视频超分网络对输入的视频帧进行多阶段超分以及细化，保障了视频帧序列的细节保持效果，提高了模型进行视频超分的效果。

进一步地，基于上述实施例提供的视频超分模型训练方法，本公开还提供了一种视频超分处理方法的一个实施例，本公开的视频超分处理方法结合了计算机视觉、深度学习等人工智能领域。

参见图3，示出了根据本公开视频超分处理方法的一个实施例的流程300，本实施例提供的视频超分处理方法包括以下步骤：

步骤301，获取多个待处理视频帧。

在本实施例中，多个待处理视频帧可以多个连续的视频帧，每个待处理视频帧可以是包括人、物、景色等信息的视频帧，通过视频超分模型对待处理视频帧进行处理，可以得到视频超分处理的结果。视频超分处理方法的执行主体可以通过多种方式来获取待处理视频帧。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的待处理视频帧。再例如，执行主体也可以实时接收终端或其他设备实时采集的待处理视频帧。

步骤302，将待处理视频帧输入视频超分模型中，输出待处理视频帧的视频超分处理结果。

本实施例中，执行主体可以将步骤301中获取的待处理视频帧输入视频超分模型中，从而得到获取的待处理视频帧的视频超分处理结果。需要说明的是，视频超分处理结果是对获取的待处理视频进行高分辨率超分处理后的视频帧，基于视频超分模型的结构可知，得到的视频超分处理结果中的视频帧比获取的待处理视频帧的分辨率高。

本实施例中，视频超分模型可以是采用如上述图1实施例所描述的方法而训练得到的，具体训练过程可以参见图1实施例的相关描述，在此不再赘述。

在本实施例的一些可选实现方式中，方法还包括：对待处理视频帧进行上采样，得到采样视频帧；将视频超分处理结果与采样视频帧相加，得到处理后的视频帧。

如图2所示，将待处理视频帧S分别输入到视频超分模型（由滑窗对齐子网1、循环对齐子网2以及细化对齐子网3三者形成）和上采样器4，在上采样器4中进行上采样，得到采样视频帧；通过视频超分模型处理得到视频超分处理结果，将采样视频帧与视频超分模型输出的视频超分处理结果相加，得到处理后的视频帧S’。

本可选实现方式中，将视频超分处理结果与采样视频帧相加，使对待处理视频帧的视频充分效果更好，提高了视频超分处理结果的可靠性。

本公开的实施例提供的视频超分处理方法，获取多个待处理视频；将待处理视频输入采用本实施例的视频超分模型训练方法生成的视频超分模型中，得到待处理视频的视频超分处理结果。由此，采用包括多个阶段的超分的视频超分网络的视频超分模型，可以对待处理视频进行可靠的视频超分处理，保证了超分处理的有效性。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了视频超分模型训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图4所示，本实施例提供的视频超分模型训练装置400包括：视频获取单元401，网络获取单元402，选取单元403，计算单元404，得到单元405。其中，上述视频获取单元401，可以被配置成获取包括两个以上视频帧的视频集。上述网络获取单元402，可以被配置成获取预先建立的视频超分网络，视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，循环对齐子网用于对滑窗子输出的特征进行双向传播，生成重构特征和对齐参数，细化对齐子网基于对齐参数对重构特征进行再对齐和双向传播，得到超分后的视频帧。上述选取单元403，可以被配置成将从视频集中选取的连续视频帧输入视频超分网络。上述计算单元404，可以被配置成计算视频超分网络的损失值。上述得到单元405，可以被配置成基于视频超分网络的损失值，得到视频超分模型。

在本实施例中，视频超分模型训练装置400中：视频获取单元401，网络获取单元402，选取单元403，计算单元404，得到单元405的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述计算单元404包括：整体计算模块（图中未示出），局部计算模块（图中未示出），得到模块（图中未示出）。其中，上述整体计算模块，可以被配置成计算视频超分网络的整体损失。上述局部计算模块，可以被配置成基于预先设置的分支损失函数，计算循环对齐子网的分支损失；上述得到模块，可以被配置成基于整体损失和循环对齐子网的分支损失，得到视频超分网络的损失值。

在本实施例的一些可选的实现方式中，上述局部计算模块包括：获取子模块（图中未示出），计算子模块（图中未示出）。其中，上述获取子模块，可以被配置成获取循环对齐子网的重构图，重构图通过对重构特征进行重构得到。上述计算子模块，可以被配置成基于重构图、分支损失函数，计算得到循环对齐子网的分支损失。

在本实施例的一些可选的实现方式中，上述滑窗对齐子网包括：特征提取模块和局部融合模块。其中，特征提取模块用于提取选取的连续视频帧的特征；局部融合模块用于将选取的连续视频帧的特征中目标帧特征以及与目标帧特征相邻的相邻帧特征进行对齐，得到至少一个邻对齐特征；局部融合模块还用于将至少一个邻对齐特征、目标帧特征按序进行连接后，通过残差块，得到融合后的特征。

在本实施例的一些可选实现方式中，上述细化对齐子网包括：特征双向传播模块、细化对齐模块、重构模块；其中，细化对齐模块基于对齐参数对重构特征进行预对齐，得到预对齐特征；基于预对齐特征，生成对齐参数的残差；基于对齐参数和对齐参数的残差，生成新的参数。特征双向传播模块基于新的参数，对重构特征进行双向传播和对齐，生成再构特征。重构模块用于对再构特征进行重构，得到对应再构特征的超分后的视频帧。

在本实施例的一些可选实现方式中，上述得到单元405包括：定型模块（图中未示出），相加模块（图中未示出）。其中，上述定型模块，可以被配置成响应于视频超分网络满足训练完成条件，将视频超分网络作为视频超分模型。上述相加模块，可以被配置成将滑窗对齐子网融合后的特征与细化对齐子网输出的超分后的视频帧相加，得到视频超分模型的输出。

本公开的实施例提供的视频超分模型训练装置，首先，视频获取单元401获取包括两个以上视频帧的视频集；其次，网络获取单元402获取预先建立的视频超分网络，视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，循环对齐子网用于对滑窗子输出的特征进行双向传播，生成重构特征和对齐参数，细化对齐子网基于对齐参数对重构特征进行再对齐和双向传播，得到超分后的视频帧；再次，选取单元403将从视频集中选取的连续视频帧输入视频超分网络；从次，计算单元404计算视频超分网络的损失值；最后，得到单元405基于视频超分网络的损失值，得到视频超分模型。本公开通过训练结合滑窗网络和双向循环网络的视频超分网络，可以使得到的视频超分模型具有该两种网络的优点；并且采用视频超分网络对输入的视频帧进行多阶段超分以及细化，保障了视频帧序列的细节保持效果，提高了模型进行视频超分的效果。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了视频超分处理装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图5所示，本实施例提供的视频超分处理装置500包括：获取单元501，输入单元502。其中，上述获取单元501，可以被配置成获取多个待处理视频帧。上述输入单元502，可以被配置成将待处理视频帧输入如上述图3实施例所描述的装置生成的视频超分模型中，输出待处理视频的视频超分处理结果。

在本实施例中，视频超分处理装置500中：获取单元501，输入单元502的具体处理及其所带来的技术效果可分别参考图3对应实施例中的步骤301、步骤302的相关说明，在此不再赘述。

在本实施例的一些可选实现方式中，视频超分处理装置500还包括：采样单元（图中未示出），相加单元（图中未示出）。其中，上述采样单元，可以被配置成对待处理视频帧进行上采样，得到采样视频帧。上述相加单元，可以被配置成将视频超分处理结果与采样视频帧相加，得到处理后的视频帧。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如视频超分模型训练方法或视频超分处理方法。例如，在一些实施例中，视频超分模型训练方法或视频超分处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的视频超分模型训练方法或视频超分处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行视频超分模型训练方法或视频超分处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程视频超分模型训练装置、视频超分处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频超分模型训练方法，所述方法包括：

获取包括两个以上视频帧的视频集；

获取预先建立的视频超分网络，所述视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，所述滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，所述循环对齐子网用于对所述滑窗对齐子网输出的特征进行双向传播，生成重构特征和对齐参数，所述细化对齐子网基于所述对齐参数对所述重构特征进行再对齐和双向传播，得到超分后的视频帧；

执行以下训练步骤：

将从所述视频集中选取的连续视频帧输入所述视频超分网络，计算所述视频超分网络的损失值；基于所述视频超分网络的损失值，得到视频超分模型；

所述细化对齐子网包括：特征双向传播模块、细化对齐模块、重构模块；

所述细化对齐模块基于所述对齐参数对所述重构特征进行预对齐，得到预对齐特征；基于所述预对齐特征，生成所述对齐参数的残差；基于所述对齐参数和所述对齐参数的残差，生成新的参数；

所述特征双向传播模块基于所述新的参数，对所述重构特征进行双向传播和对齐，生成再构特征；

所述重构模块用于对所述再构特征进行重构，得到对应所述再构特征的超分后的视频帧。

2.根据权利要求1所述的方法，其中，所述计算所述视频超分网络的损失值包括：

计算所述视频超分网络的整体损失；

基于预先设置的分支损失函数，计算所述循环对齐子网的分支损失；

基于所述整体损失和所述循环对齐子网的分支损失，得到所述视频超分网络的损失值。

3.根据权利要求2所述的方法，其中，所述基于预先设置的分支损失函数，计算所述循环对齐子网的分支损失，包括：

获取所述循环对齐子网的重构图，所述重构图通过对所述重构特征进行重构得到；

基于所述重构图、所述分支损失函数，计算得到所述循环对齐子网的分支损失。

4.根据权利要求1所述的方法，其中，所述滑窗对齐子网包括：特征提取模块和局部融合模块；

所述特征提取模块用于提取选取的连续视频帧的特征；

所述局部融合模块用于将选取的连续视频帧的特征中目标帧特征以及与所述目标帧特征相邻的相邻帧特征进行对齐，得到至少一个邻对齐特征；

所述局部融合模块还用于将所述至少一个邻对齐特征、所述目标帧特征按序进行连接后，通过残差块，得到融合后的特征。

5.根据权利要求1所述的方法，其中，所述基于所述视频超分网络的损失值，得到视频超分模型，包括：

响应于所述视频超分网络满足训练完成条件，将所述视频超分网络作为视频超分模型；

将所述滑窗对齐子网融合后的特征与所述细化对齐子网输出的超分后的视频帧相加，得到所述视频超分模型的输出。

6.一种视频超分处理方法，所述方法包括：

获取多个待处理视频帧；

将所述待处理视频帧输入采用如权利要求1-5中任一项所述的方法生成的视频超分模型中，输出所述待处理视频帧的视频超分处理结果。

7.根据权利要求6所述的方法，所述方法还包括：

对所述待处理视频帧进行上采样，得到采样视频帧；

将所述视频超分处理结果与所述采样视频帧相加，得到处理后的视频帧。

8.一种视频超分模型训练装置，所述装置包括：

视频获取单元，被配置成获取包括两个以上视频帧的视频集；

网络获取单元，被配置成获取预先建立的视频超分网络，所述视频超分网络包括：滑窗对齐子网、循环对齐子网以及细化对齐子网，其中，所述滑窗对齐子网用于对多个连续视频帧进行特征提取和融合，所述循环对齐子网用于对所述滑窗对齐子网输出的特征进行双向传播，生成重构特征和对齐参数，所述细化对齐子网基于所述对齐参数对所述重构特征进行再对齐和双向传播，得到超分后的视频帧；

选取单元，被配置成将从所述视频集中选取的连续视频帧输入所述视频超分网络；

计算单元，被配置成计算所述视频超分网络的损失值；

得到单元，被配置成基于所述视频超分网络的损失值，得到视频超分模型；

9.根据权利要求8所述的装置，其中，所述计算单元包括：

整体计算模块，被配置成计算所述视频超分网络的整体损失；

局部计算模块，被配置成基于预先设置的分支损失函数，计算所述循环对齐子网的分支损失；

得到模块，被配置成基于所述整体损失和所述循环对齐子网的分支损失，得到所述视频超分网络的损失值。

10.根据权利要求9所述的装置，其中，所述局部计算模块包括：

获取子模块，被配置成获取所述循环对齐子网的重构图，所述重构图通过对所述重构特征进行重构得到；

计算子模块，被配置成基于所述重构图、所述分支损失函数，计算得到所述循环对齐子网的分支损失。

11.根据权利要求8所述的装置，其中，所述滑窗对齐子网包括：特征提取模块和局部融合模块；

所述特征提取模块用于提取选取的连续视频帧的特征；

12.根据权利要求8所述的装置，其中，所述得到单元包括：

定型模块，被配置成响应于所述视频超分网络满足训练完成条件，将所述视频超分网络作为视频超分模型；

相加模块，被配置成将所述滑窗对齐子网融合后的特征与所述细化对齐子网输出的超分后的视频帧相加，得到所述视频超分模型的输出。

13.一种视频超分处理装置，所述装置包括：

获取单元，被配置成获取多个待处理视频帧；

输入单元，被配置成将所述待处理视频帧输入采用如权利要求8-12中任一项所述的装置生成的视频超分模型中，输出所述待处理视频的视频超分处理结果。

14.根据权利要求13所述的装置，所述装置还包括：

采样单元，被配置成对所述待处理视频帧进行上采样，得到采样视频帧；

相加单元，被配置成将所述视频超分处理结果与所述采样视频帧相加，得到处理后的视频帧。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述方法。